GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель? / forpes.ru

Главная
GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

14.05.2024 09:19

DataSecrets 77 35000 Источник

Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает тон голоса, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все‑все самые интересные пасхалки Альтмана...

Что умеет GPT-4o?

Перед презентацией CEO OpenAI Сэм Альтман и некоторые из его инженеров активно разжигали интерес аудитории и оставляли в соц.сетях пасхалки на предстоящий релиз. В основном это были всяческие намеки на фильм «Она», в котором главный герой влюблен в ИИ‑систему. И действительно, GPT-4o очень похожа на ту самую Саманту из фильма, которая умела разговаривать с «живыми» интонациями, имела чувство юмора и отвечала со скоростью человека. С GPT-4o действительно можно поверить, что разговариваешь с живым собеседником.

Жутковато? Да, немного.

При этом GPT-4o может выступать не только собеседником, но и переводчиком. Разработчики значительно улучшили способности модели в диалогах на отличных от английского языках, теперь она поддерживает более 50 языков. К тому же, была улучшена память модели: теперь она будет запоминать все беседы с пользователем и знать о вас больше. Опять жутко, да?

Что касается английского языка и кода, в релизном блог‑посте написано, что GPT-4o соответствует производительности GPT-4 Turbo. Но тут они определенно поскромничали. То, что модель будет зверем в программировании, было ясно еще неделю назад. Но не будем забегать вперед. Для начала небольшая историческая справка.

В течение нескольких предыдущих недель на главном LLM‑лидерборде LMSYS одна за одной появлялись загадочные модели «gpt2», «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Компания‑производитель не была указана, но по отсылкам в Твиттере Сэма Альтмана все было ясно.

Пользователи были шокированы качеством ответов таинственных моделей. Последняя могла без проблем создать полноценную игру: у юзеров получилось за считанные минуты создать полный клон Flappy Birds, 3D-шутер и аркаду.

Конечно, теперь мы понимаем, что все это была замаскированная GPT-4o. Сейчас на Chatbot Arena по сравнению с конкурентами она показывает отрыв в 57 ELO на общих языковых задачах и в 100 ELO на коде. Это поразительный результат. Кроме этого, модель использует для ответов не только свои знания, но и информацию из Интернета.

И, кстати, теперь еще у модели еще будет режим стриминга для MacOS. Подключаете приложение, выделяете прямо на экране код, модель его обрабатывает на месте.

Но и это еще не все! С картинками и видео модель теперь тоже работает намного лучше:

Синтез объектов в 3D
Продвинутый анализ графиков, диаграмм, таблиц и рукописного текста.
Умеет не просто генерировать картинки, а запоминать внешность персонажей. За счет этого можно сгенерировать полноценный комикс!

Получается, у нас в руках новая супер‑мощная GPT-4o, умеющая работать с текстом, голосом, картинками и видео. Но ведь это не первая мультимодальная модель компании? GPT-4 Turbo тоже умел анализировать и генерировать картинки и слушать голос. И все‑таки оказывается, что это совсем «разные» мультимодальности. Давайте разберемся.

Почему GPT-4o - первая настоящая мультимодальная модель?

Буква 'o' в названии GPT-4o означает «omni», то есть «универсальная». До ее появления тоже можно было отсылать боту картинки и использовать голосовой режим. Однако задержка ответа была в районе 3 секунд. Теперь модель отвечает со скоростью человека.

Дело в том, что до этого «мультимодальность» находилась не внутри одной модели, а была рассеяна на три отдельных:

Speech‑to‑Text модель переводила аудио в текст;
Затем GPT-3.5 или GPT-4 обрабатывала уже транскрибированный текст, как если бы вы его напечатали, и генерировала ответ;
Последняя модель переводила текст обратно в аудио.

Таким образом, модель не умела понимать настроение и тон людей, не могла имитировать интонации или другие звуки.

Теперь все изменилось. GPT-4o обучена сразу на трех модальностях одновременно — текст, аудио, изображения. Теперь они все «живут» и работают вместе. Поэтому GPT-4o можно называть первой настоящей мультимодальной моделью компании.

Если она так хороша, почему она такая дешевая?

Для бесплатных юзеров бота модель будет не просто дешевой, а бесплатной. По API обработка токена станет в 2 раза дешевле, чем в GPT-4 Turbo. Получается, новая модель и умнее, и быстрее, и дешевле. Разве так бывает?

Да, бывает. Вообще-то цена и раньше снижалась, это можно увидеть на графике:

В этот раз косты удалось снизить в основном за счет нового мультиязычного токенизатора, который лучше «сжимает» вход. Для некоторых языков теперь требуется в 3–4 раза меньше токенов, соответственно и стоит обработка промпта теперь меньше. Например, для русского языка она будет обходится в среднем в 3.5 раза дешевле.

И все это уже можно попробовать?

Ну, не совсем. OpenAI, как всегда, выкатывают анонсированные обновления постепенно. Модель уже доступна разработчикам по API, доступы для генерации текста с GPT-4o для обычных пользователей тоже начали понемногу выдавать.

В остальном, в боте пока сохраняется подход с тремя разными моделями. Показанный на презентации голосовой режим из фильма «Her» пока не включили. Он будет доступен для подписчиков Plus и раскатится в ближайшие недели. Видео‑возможности пока что вообще дают только ограниченным группам пользователей.

Также OpenAI пообещала выпустить приложение для ПК.

Больше новостей, мемов и пасхалок из мира ML в нашем тг‑канале. Подпишитесь, чтобы ничего не пропустить.

Комментарии (77)

SciStalk
14.05.2024 09:39
#26822327
+3
А как вы поняли, что это теперь не франкенштейн из нескольких моделей, а одна?
1. DataSecrets Автор
  14.05.2024 09:39
  #26822329
  +4
  Выдержка из поста:
  
  Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.
  
  With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.
1. darthmaul
  14.05.2024 09:39
  #26822519
  +1
  Да это логично. Как обеспечить такую резвую реакцию на голос если бы распознаванием занималась отдельная система? Обычно это работает так: фраза записывается (этот этап довольно сложный т.к. надо определить конец фразы при попмощи традиционного алгоритма, а не нейростети), передаётся в распознавлку, а потом текст - в нейронку. Т.е. работа нейросети не может начаться до того как пользователь закончит фразу.
  1. Dron007
    14.05.2024 09:39
    #26823839
    +1
    Вообще-то делали быструю реакцию на голоса умельцы, но это, конечно, всё равно не полноценное аудиовосприятие. Я вот не совсем понял, что с видео, обучали ли её именно на видео или только на картинках. От этого будет многое зависеть, сможет ли естественным образом увязывать аудио и видео, оценивать скорость разных явлений и так далее.
    
    TommyG
    14.05.2024 09:39
    #26824703
    Она вполне может брать например десять первых ключевых кадров из видео, их рендерить и на основе этого плюс аудио транскрипта строить внутренюю картину видео.
    
    Понятно что полностью видео просматривать не будет, это на столько ресурсоёмкая задача, что в системах общего назначения ещё очень долго не будет сделано (плюс тут у гугла как владельца ютюба преимущество, когда они процессинг видео делают, они и категоризацию его заодно могут сделать).
    
    По идее можно наверное отдельно запилить модель которая будет достаточно точно описывать видео текстом, ну а потом уже по этому тексту делать анализ.
    
    Dron007
    14.05.2024 09:39
    #26824747
    +1
    Если описывать видео текстом, то будет такая же ерунда как с преобразованием голоса в текст и обратно. Саманту (Her) так не склепаешь. Вот, как раз по этой теме Джим Фан пишет, что нет там полноценной обработки видео, как он предположил вначале и отмечает, что в Gemini закладывается полноценная работа с видео. А он там вообще отдельный видео кодек предлагает. В общем, будет ещё чем заняться в ближайшие месяцы и годы. У человека на вход идёт поток от всех сенсоров сразу, а также ещё и внутренние всякие датчики, не все выносимые на уровень сознания. Конечно, это побочки биомеханизма, не всё нужно нейросети, больше для роботов актуально, но полноценный ввод был бы полезен, можно ещё и с ИК-датчиками, магнитного поля, новостными лентами. Это будет что-то интересное.
    
    TommyG
    14.05.2024 09:39
    #26824781
    На данный момент наиболее важным направлением является повышение уровня интелекта. Всё остальное это удобство и вполне может быть прикручено сверху, а не интегрированно.
    
    Тем более ресурсов для работы с видео, аудио и изобрадениями надо на порядки больше чем с текстом.
    
    Dron007
    14.05.2024 09:39
    #26824785
    +3
    Я думаю, это как раз связанные вещи. Откуда берётся интеллект? Из одних лишь текстов не выковырять полноценной картины мира. Все наши абстракции восходят к самым базовым ощущениям, которые мы получает из чувственного опыта, вспоминая свои детские падения и открытия. Ещё в детстве мы строим модель мира исходя из физического восприятия и на неё нанизываем всё остальное. В нейросеть же запихивают тексты и она даже может себе представить по ассоциациям, как выглядит единорог, к примеру, но насколько больше она получает увязывая его с изображением или глядя на падающий лист, из чего может сформировать даже закон гравитации. Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.
    
    Интеллект это не только работа с текстом. ИИ должны будут решать массу задач на работу с пространством и на понимание времени. Не так давно читал работу, в которой обнаружили, что такие задачи намного лучше решаются если ИИ думает картинками, сохраняя промежуточные результаты "внутреннего взора". Мы тоже так решаем задачи, формируя какой-то внутренний образ, даже если преобразовываем его в текст.
    
    rPman
    14.05.2024 09:39
    #26824989
    +1
    Не думаю что у интеллекта есть требование наличия мультимодальности.
    
    Главная причина того что исследователи работают в этом направлении - имеющейся текстовой информации недостаточно, а значит информацию нужно собирать отовсюду, до куда дотянемся, и самое простое - это аудио-видео.
    
    Shannon
    14.05.2024 09:39
    #26825695
    Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.
    
    Так как Sora диффузионная модель, то она и правда находила закономерности, но не те, что вы перечислили.
    
    Диффузионные модели во время обучения получают картинку и начинают её зашумлять, чтобы потом научится из шума восстанавливать изображение.
    А чтобы восстанавливать что-то конкретное, нужно текстовое описания картинки - этим занимается модель трансформер (в данном случае GPT-4 Vision), которая очень подробно описывает кадр. По их словам, прорыв произошел когда вместо краткого описания в 1-2 строки для обучения они начали генерировать 4-5 строк текста с максимально подробным описанием.
    Тут нет реального понимания физики процесса воды, просто куча кадров как она текла и комбинирование этого в зависимости от получившегося при генерации рельефа.
    
    Поэтому, в не специально отобранных удачных видео для презентации, будет много артефактов и "анти-физики", о чем создатели сами и говорят, что модель может путать лево и право, запутаться со сложной физикой и у неё проблемы с понимаем причинно-следственных связей.
    
    rPman
    14.05.2024 09:39
    #26825757
    +1
    НЕТ! Это именно постройка модели.
    
    Понимание = постройка модели. Мало того, мы можем построить модель без понимания (например квантовая физика, отлично работает пока ты просто считаешь, не пытаясь понять как это внутри устроено)
    
    Как работают диффузионные модели генерации? мы ставим нейронную сеть в такие условия, делаем один промежуточный скрытый слой значительно меньше по объему чем каждые последующие, вид она принимает такой 'вход >-< выход', подавая одно и тоже на вход и выход, что у нее не остается выбора как разобраться что же на входе. Затем мы выкидываем то что в начале, а входом становится вот эта узкий перешеек, тот слой с малым количеством весов. Вектор этих весов становится описанием картинки на каком-то выдуманном нейросеткой языке. Шум в этих весах нарисует случайную но правдоподобную картинку, а дальше мы на основе другой нейросетки пытаемся понять, то что нужно нарисовала нейросеть или нет, если нет - подправляем и снова проверяем... там чуть сложнее но идея именно такая
    
    Когда начинаешь изучать, как же выглядят веса в слоях, то там именно признаки, чем глубже слой тем сложнее признак (сначала просто линии и градиенты, затем геометрические фигуры, потом буквально носы, усы, лапы, шерстинки).. заглянуть глубже в сложные нейронные сети мы не можем (там сотни миллиардов параметров) но экстраполируя можно предположить что там и дальше происходит именно то что мы имеем в виду - модель начинает понимать, как мир устроен, строит его модель.
    
    И да, на первых порах она упрощает, модель не совершенная, с глюками, это нормальное следствие выбора инструмента. Просто другого у нас нет.
    
    darthmaul
    14.05.2024 09:39
    #26828317
    Интересно, а возможен ли ИИ, "понимающий" смысл весов нейросети? Очень бы помог т.к. пока что вся работа над ИИ сводится к тряске чёрного ящика с кучей информации и выборе более-менее удачной образовавшейся структуры.
    
    rPman
    14.05.2024 09:39
    #26828483
    есть и такие попытки, исследователи строят слабую gpt2 и используя более сильную версию пытаются что то разобрать
    
    alex50555
    14.05.2024 09:39
    #26825967
    +2
    Да анти-физика есть и в тех видео, что нам показали. Есть момент, где на стройплощадке погрузчик задевает человека и при этом отпрыгивает сам погрузчик, а человек как стоял так и стоит)
    
    rPman
    14.05.2024 09:39
    #26826269
    погрузчик задевает человека
    
    в обучающей выборке таких событий не было или недостаточное количество, сеть не знает что произойдет дальше.
    
    это кстати очень плохой недостаток, когда сетка будет размышлять образами, она не поймет чем это опасно!
    
    Wesha
    14.05.2024 09:39
    #26828359
    в обучающей выборке таких событий не было или недостаточное количество,
    
    В моей обучающей выборке точно не было события "карьерный самосвал "БЕЛАЗ" наталкивается на антилопу гну" — да, готов поспорить, что и в Вашей тоже. Однако тем не менее и я, и Вы сможем со стопроцентной точностью предсказать, кто из них поедет дальше.
    
    rPman
    14.05.2024 09:39
    #26828507
    Ваша обучающая выборка на несколько порядков объемней той что кормили нейронке. Не уверен, использовали ли сны для формирования SORA, но по уму должны. Вы, благодаря интернету, видели сотни и тысячи событий как одна машина врезается в другую, и смогли экстраполировать. Плюс, скорее всего ваши знания подкреплены текстовыми описаниями родителей с эмоциональной окраской...
    
    Wesha
    14.05.2024 09:39
    #26828521
    Вовсе нет. Просто я понимаю, что для вычисления объёма красного резинового мячика мне не нужен справочник объёмов красных резиновых мячей — я умею обобщать. А вот с этим у нейросетей пока что неплохой такой швах.
    
    Dron007
    14.05.2024 09:39
    #26826369
    +1
    Я согласен, что там нет понимания физики в привычном нам аналитическом виде, на уровне формул. Но для того, чтобы сформировать латентное пространство вмещающее все возможные варианты действий, например, с жидкостью, ей нужно в глубоких слоях сохранить какие-то абстракции, описывающие состояние жидкости, в том числе и вязкость. Далее, при присоединении текстового корпуса, она уже может и увязать эту абстракцию со словом. Но в дальнейшем, решая разного рода формальные и бытовые задачи, та нейросеть, у которой в векторном пространстве не только буковки, а ещё и визуальное представление того, что это за понятие, сможет быть намного более эффективной. Например, робот, знающий по видео о свойствах материалов, может наступить на бетонную плиту через яму, но избегать картонных листов. Или, там, предупредить Аннушку, что масло разлито. Конечно, он может это получить и в процессе обучения, угрохав себя сотню раз, например. Но вот человек как-то по-другому обучается, не на миллионах смертей, потому что строит в голове модель. Так и выжил в процессе эволюции.
    
    Вот, небольшой эксперимент. Прочитайте фразу "эта жидкость была очень вязкой". Что у вас происходит в голове для её понимания? Отловить этот момент можно когда мы о чём-то задумались и читаем текст, не воспринимая его смысл. Потом сосредотачиваемся и бах, что-то произошло. Что? Или допустим, кто-то спросит у вас "что такое вязкость"? Что появляется в голове в первую очередь? Уверен, визуальный образ тягучей жидкости, возможно, даже ощущения и ощущения-ожидания её поведения. То есть вот сейчас я её буду лить, а она льётся не так как вода. У вас не появляется формул вязкости или определений из учебника. Понимание я определяю как привязка нового объекта к существующей у нас ассоциативной сети. Понимание - основополагающая часть интеллекта. Для искусственных нейросетей понимание - размещение объекта в векторном пространстве в том месте, где рядом будут располагаться ассоциативные понятия. И вот если мы расширяем это векторное пространство визуальными данными и пониманием поведения объекта, интеллектуальные возможности возрастают.
    
    Update: Да, и ещё такой момент. Многие если не все наши образы завязаны на окружающие нас явления, на наши ощущения. Мы переносим понятия из одной сферы в другую. Они становятся как бы новыми красками в нашей палитре выражения и проявления возможностей. Например, представьте себе того же ИИ-психолога, которому человек говорит "я как будто плаваю в патоке". Конечно, нейросеть поймёт его на каком-то уровне, как мы изучаем английские идиомы, даже не погружаясь в их происхождение. Но намного более глубоким, на уровне "ощущений" будет понимание если нейросеть видела и понимает что такое вязкая жидкость, видела мошек, попавших в мёд, а может быть и в виде ощущений, полученных от роботов сама плавала в густой жидкости, наливала мёд и так далее. Этот физиологический опыт может быть в неё подгружен от роботов, думаю. Нейросети же можно объединять. Так вот, обладая настолько расширенным понятийным аппаратом, она глубже поймёт состояние собеседника и в итоге возможно даст более качественный совет. Это и будет проявление более развитого интеллекта.
    
    darthmaul
    14.05.2024 09:39
    #26828313
    Всё логично, но есть контраргумент: люди, слепые с рождения, каким-то образом имеют интеллект, сравнимый со здоровыми, хотя их мозг недополучил львиной доли информации для обучения. Хотя проводя аналогию с неросетью, даже мозг новорождённого не является пустышкой (врождённые инстинкты и т.д) когда неросеть без обучения - просто матрица с нулями.
    
    Dron007
    14.05.2024 09:39
    #26828377
    Да, аргумент весомый, тоже о таком думал. У них, как известно, роль зрения берёт на себя слух, осязание. В детстве много времени уходит на адаптацию. Визуальные свойства предметов они оценят косвенно, физические тактильно, через слух. Поэтому они всё равно ближе к мультимодальным нейросетям. Ну, и насчёт развитости, читал, что они слабее развиты как из-за отсутствия зрения, так и из-за других бытовых и социальных проблем в детстве и не только. Кроме того, от них не требуется решать визуальные задачи или как-то учитывать визуальные параметры, что может потребоваться от нейросети.
    
    Inkor
    14.05.2024 09:39
    #26828975
    С видео непонятно, в прес релизе заявлены текст, аудио и изображения, то есть она теперь их может как понимать, так и генерировать. Про видео не говорится. Но в одном из примеров была показана генережка 3D объекта. Так что диапазон модальностей там возможно больше. Эмпирически пока не проверить, выкатили пока только возможности с текстом и принятием изображений, остальное пока тестят на безопасность.

avshkol
14.05.2024 09:39
#26822435
+1
Пробовал вчера вечером через сервис vsegpt.ru (платно), скорость и качество ответов на профессиональные вопросы удивили - не ожидал такого роста к gpt4, при том, что это не версия 5, а всего-то дообученная gpt4...
1. Aniro
  14.05.2024 09:39
  #26823417
  +9
  Это не дообученая gpt4, это совершенно новая модель. Достаточно того что там новый токенизатор - если он меняется, меняется все. Раз модель на новой архитектуре, она обучена с нуля.
  Четверка в названиии это видимо чтоб от нее не ждали чудес и не говорили "гпт-5 не продвинулся по сравнению с гпт-4, акции open-ai пора сливать" )
  1. Eggsiname
    14.05.2024 09:39
    #26823505
    +1
    Так у них же там договор мол не создавать модели выше gpt-4 (могу ошибаться)
    
    BlackMokona
    14.05.2024 09:39
    #26823919
    +3
    Маск предлагал остановится на текущем уровне развития ИИ до выработки правил, но все только посмеялись над идеалистом.
    
    VADemon
    14.05.2024 09:39
    #26823973
    Есть версия, что эта волна "ИИ всех погубит" -- работа на политиков, лоббизм регуляторов. 10мин, англ. https://www.youtube.com/watch?v=5NUD7rdbCm8
    
    BlackMokona
    14.05.2024 09:39
    #26824871
    +1
    Маск гонит волну ИИ всех погубит уже очень давно, он основал ОпенАИ именно под таким лозунгом. Что нужна компания которая создаст общедоступный, свободный ИИ. С созданием передового ИИ компания отлично справилась, а вот контроль над ней Маск не удержал, от чего она продалась Микрософту провалив своё назначение.
    
    MountainGoat
    14.05.2024 09:39
    #26826477
    +1
    Есть версия, что эта волна - работа самих ИИ корпораций, которые очень хотят, чтобы на всех наложили правила, которые соблюдать могут только они. А то получится, как с рисующими ИИ, где opensource уже без разговоров обошёл всех.
1. Eggsiname
  14.05.2024 09:39
  #26823507
  Используют модели с каких-то рандомных сайтов, а потом плачут мол модель говно xD
1. MAXHO
  14.05.2024 09:39
  #26825905
  Пробовал через сервис https://arena.lmsys.org/
  В целях "просто посмотреть" и сравнить - сервис идеален.
  Даже написал "творческий проект" школьника. Вполне вменяемо. Пару ошибок в коде исправил и всё работает.
  
  Но, разумеется если много запросов, то сервис выдаст бан. Это именно для попробовать.{Ну а нехорошие люди, использующие не по назначению,. могут чистить историю и прятать IP}
1. MountainGoat
  14.05.2024 09:39
  #26826605
  +1
  Спасибо за рекомендацию сервиса. Прикрутил их API себе к VSCode (через Continue), ибо не царское это дело — тесты писать.
1. MountainGoat
  14.05.2024 09:39
  #26826907
  КОНИ СТОП!
  
  У этих горных ... по умолчанию включена опция перенаправлять запросы к GPT-4o на GPT-4-Turbo. Выключается в общих настройках аккаунта.

excoder
14.05.2024 09:39
#26822623
А где про синтез 3д-объектов? Я не засёк в материалах, но многие говорят.
1. DataSecrets Автор
  14.05.2024 09:39
  #26823103
  Вот тут демо можно посмотреть, их показывали на презентации: https://x.com/estebandiba/status/1790285228981862720
  1. Dron007
    14.05.2024 09:39
    #26823857
    Это и у них на сайте есть в группе текстово-графических примеров. Кстати, там есть пример где создаётся монета и потом просят звук монеты создать. Вот тут интересно насколько это управляемо и параметризуемо. Учитывая, что она поёт на ходу меняя скорость, высоту голоса, то вполне может оказаться, что там уже есть всё для генерации музыки и тогда она просто заменит Suno и Udio. Может быть её на музыке не обучали, конечно, но кто знает.

0x6b73ca
14.05.2024 09:39
#26823657
Использую от сегодня по апи ключу, я поражён, это много лучше чем 4

martein
14.05.2024 09:39
#26823671
Ну что ж, революции не случилось, а лишь спровоцировал Шлёма ускорение наступления AI-зимы.

Dron007
14.05.2024 09:39
#26823895
+3
Меня впечатлило и заставило задуматься то, как она реагирует на собаку, например, или как оценивает причёску человека. Все люди реагировали бы по-разному, с разными эмоциями и выбор именно определённой эмоции индивидуализирует ИИ. Текстовое общение по умолчанию ведь шло просто по фактам. Да, можно задать любой промпт, но всё равно текст человек начал воспринимать какие-то несколько сотен лет назад, он не закрепился глубоко в эволюционных механизмах и не влияет на нас так уж сильно в отличие от тона речи, эмоций. К чему это всё приведёт сложно сказать, может и как в том самом Her, вполне возможны какие-то даже психологические травмы, кто-то обязательно покончит с собой из-за ИИ. Много необычного нас ждёт.

Georrg
14.05.2024 09:39
#26824379
Отличные новости! Чем быстрее мы оккнемся в новую реальность тем быстрее к ней адаптируемся. Жить с домокловым мечем не хочется

assdestr0yer
14.05.2024 09:39
#26824447
Думаю развитие ИИ приведёт к тому, что многие потеряют работу, но для нормальных стран это не проблема. Введут базовый доход, люди будут заняты в других сферах, будут открывать свои бизнесы работать на себя и точно так же использовать ИИ, которые будут заменять им секретаря и бухгалтера например. Производительность труда и качество жизни вырастет.

Другое дело что будет в странах СНГ ? Сомневаюсь, что у нас введут базовый доход.
1. arantar
  14.05.2024 09:39
  #26824531
  +6
  ИИ не существует, исходя из этого остальное не имеет смысла.
  1. Wesha
    14.05.2024 09:39
    #26824665
    +2
    Просто там второе "И" не от того слова, от которого думают.
    ИИ - искусственный идиот.
    
    MountainGoat
    14.05.2024 09:39
    #26826609
    +1
    Если искусственный идиот может вытеснить естественных, это всё равно означает повальную безработицу.
  1. DarkSold
    14.05.2024 09:39
    #26824667
    Да, ИИ пока не существует, но сейчас модель 'умнее' среднестатистического человека. Единственное, пока не может взаимодействовать с физическим миром. Но и это решат какой-нибудь моделью RobotGPT (нечто похожее уже есть, осталось пару поколений...), который будет отвечать за взаимодействие с физическим миром. И все. Дальше будет вопрос экономики, где дешевле будет - поставить робота или человека. Будущее пока за интеллектуальным трудом.
    
    BlackMokona
    14.05.2024 09:39
    #26824877
    +3
    Да, ИИ пока не существует, но сейчас модель 'умнее' среднестатистического человека
    
    Бегство от ИИ достигло уровня лишающего титула ЕИ большей части человечества. Интересно бегство продолжиться когда ИИ превзойдет лучших людей в интеллекте?
    
    Типо да, ГПТ-10 создал теорию всего, единое мировое государство, вылечил все болезни и создал гипердрайв за первые пять секунд после включения. Но это не ИИ это лишь чутка глупых вычислений
    
    kuza2000
    14.05.2024 09:39
    #26825519
    +2
    ГПТ-10 создал теорию всего, единое мировое государство, вылечил все болезни и создал гипердрайв за первые пять секунд после включения...
    
    ...Потом открыл портал и ушел в него. Больше его никто не видел. Сидим думаем - жить без ИИ или попробовать создать другого?
    
    Wesha
    14.05.2024 09:39
    #26828371
    Потом открыл портал и ушел в него. Больше его никто не видел.
    
    По этому сценарию кино уже сняли. Не продадите.
    
    rPman
    14.05.2024 09:39
    #26825595
    +3
    В тот момент когда робот сможет собирать и обслуживать таких же роботов, появится технология самопроизводства, экономика станет другой.
    
    Главными станут (в порядке уменьшения ценности) - производители чипов для ИИ (или скопом - электроники) + производители софта и самого ИИ (большая часть их стоимости те же чипы для ИИ) + производители энергии + по мелочи (реально наименьшая доля) материальная часть (металы, пластики, масла и т.п.)
    
    Повторяю - как только ИИ сможет заниматься самообслуживанием, людям тупо больше нечего будет делать. Если заранее к этому не подготовиться, будет катастрофическая безработится, голод и т.п.
    
    kuza2000
    14.05.2024 09:39
    #26826199
    Голода-то избежать можно. Если они себя будут делать, то и нам еду смогут сделать)
    
    Тут другая проблема. Я бы сформулировал его не "людям тупо больше нечего будет делать", а "люди тупо станут не нужны"...
    
    Eggsiname
    14.05.2024 09:39
    #26826673
    https://tech.onliner.by/2023/03/03/ilon-mask-pokazal-kak-roboty-gumanoidy-tesla-sobirayut-drugogo-robota
    
    rPman
    14.05.2024 09:39
    #26826941
    собрать на самом деле фигня (можно так спроектировать что собирать их проще) проблема в диагностике и починке.
    
    Eggsiname
    14.05.2024 09:39
    #26827873
    По диагностике - они сами себя могут проверять (пример с машинами к которым ноутбук с ПО подключаешь и он все данные выводит, что сломано, что поменять и тд)
    По починке - не вижу смысла чинить робота, когда можно просто собрать нового.
    
    arantar
    14.05.2024 09:39
    #26826039
    Всё как легко и просто у вас, пару поколений и всё будет решено.
    И что значит это "умнее"?
    
    Apxuej
    14.05.2024 09:39
    #26826611
    Полагаю "умнее" в данном случае значит - сравнительно лучшие результаты, относительно медианных показателей людей в различных задачах, таких, которые ИИ может потенциально решить с учётом ограничений интерфейсов взаимодействия его с миром. Приоритетом в бесконечном множестве подобных задач будут те, которые способны принести пользу максимальному числу людей и могут быть потенциально решены относительно большим числом людей. Т.е. никаких расчётов свёртывания белков, расчёта квантовых полей, вычислений оптимальных форм болида f1.
    
    Eggsiname
    14.05.2024 09:39
    #26826697
    +1
    Уже давно есть ИИ, то-что люди неспособны это принять не отменяет того что ИИ нет. ИИ принято делить на слабый и сильный. Если с слабым ИИ вопросов нет, то про сильный ИИ можно поспорить. Как по мне тот же ChatGPT (gpt-4 модель) больше похож на сильный ИИ, но с некоторыми ограничениями.
  1. Eggsiname
    14.05.2024 09:39
    #26826655
    В плане "ИИ не существует"? А как же gpt, midjourney, sora? Все они выполняют творческую функцию...
    
    arantar
    14.05.2024 09:39
    #26827335
    Эти модели обладают интеллектом по вашему? Они ничего не выполняют сами, человек дает задание - они делают.
    
    TommyG
    14.05.2024 09:39
    #26827509
    intellect is the ability of the human mind to reach correct conclusions about what is true and what is false in reality; and includes capacities such as reasoning, conceiving, judging, and relating.
    
    При чём тут "ничего не выполняют сами"?
    
    arantar
    14.05.2024 09:39
    #26827779
    Я считаю, что одним из признаков наличия интеллекта это наличие самопобуждения, саморазвития и прочих "само-", на что пока не способны эти псевдо-ИИ.
    Это как машина без двигателя, её можно только толкать самому.
    
    TommyG
    14.05.2024 09:39
    #26827821
    Это как машина без двигателя, её можно только толкать самому.
    
    Все эти "само" не включаются в определение интелекта. По идее бы надо быть точнее с определениями, а то ваши собеседники имеют сильно отличный контекст от вашего и каждый разговаривает о своём.
    
    arantar
    14.05.2024 09:39
    #26827869
    Все эти "само" не включаются в определение интелекта.
    
    Чего вы взяли, что существует какое-то единственно правильное определение этого слова? В той же вики об этом прямо пишется.
    И в вашем определении, например, идет речь только про человеческий разум.
    
    Также можно немного вникнуть в работу этих моделей и потом задаться вопросом, а можно ли это называть интеллектом?
    https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
    
    TommyG
    14.05.2024 09:39
    #26827911
    Чего вы взяли, что существует какое-то единственно правильное определение этого слова?
    
    Я не говорю что существует единственно правильного, но лично я не помню чтобы "само" было необходимой частью интелекта.
    
    С моей точки зрения, это скорее имеет отношение к "сознанию", а не к "интелекту".
    
    можно ли это называть интеллектом
    
    Тут вопрос не то как оно сделано, а "выглядит как утка, крякает как утка и если ведёт себя как утка" - то вполне возможно назвать это "уткой".
    
    Вот интересная статейка, почитайте https://arxiv.org/pdf/2303.12712
    
    Недавно видел интересный вопрос - "обладает ли пятилетний ребёнок интелектом? Превзойдёт ли каой-нибудь chatgpt его в уровне ителекта?"
    
    Eggsiname
    14.05.2024 09:39
    #26827883
    Это лишь твоём мнение, и оно никоем образом не совпадает с реальностью.
    2. Если считать по твоему определению "Они ничего не выполняют сами" - то по сути ты тоже не имеешь интеллекта, т.к. задачи тебе ставятся из вне.
    3. Я процитирую своё сообщение выше: "Уже давно есть ИИ, то-что люди неспособны это принять не отменяет того что ИИ нет. ИИ принято делить на слабый и сильный. Если с слабым ИИ вопросов нет, то про сильный ИИ можно поспорить. Как по мне тот же ChatGPT (gpt-4 модель) больше похож на сильный ИИ, но с некоторыми ограничениями."
    
    Edit: P.S. Теперь gpt может обучать роботов (лучше чем человек) для взаимодействия с физической реальность > https://eureka-research.github.io/dr-eureka/
    
    arantar
    14.05.2024 09:39
    #26827929
    +1
    
    Оно совпадает с реальностью настолько, насколько и твоё. Это мнение и оно субъективно.
    
    Ставятся кем/чем? Кто тебе поставил задачу написать ответ на мой комментарий? Голоса в голове, бог и т.д.?
    
    Что такое "сильный ИИ"? Что за ограничения?
    
    Я пользуюсь ChatGPT почти с запуска их браузерной версии, а платной версией с самого начала и до сих пор продолжаю использовать в работе и в жизни, и от слова совсем не понимаю речей про замену человека, потерю многими работы и прочим бредом.
    Он упрощает некоторую работу? Да.
    Он помогает в поиске решения? Да.
    Он предлагает решения? Да.
    Может он делать за меня мою работу? Даже близко нет, более того за ним самим нужно тщательно следить, а следовательно хоть немного разбираться в этой теме. Не говоря уже о том, что нужно составлять ТЗ для него, что уже немаловажная часть работы и требует понимания предметной области.
    
    Eggsiname
    14.05.2024 09:39
    #26828083
    
    1. Чем бы не было твоё мнение - это не более чем мнение. (мусор, шум, бесполезной информации (без обид))
    2. Стимул - реакция (увидел коммент - ответил). Без комментария не было бы другого комментария.
    3. Сильный ИИ (Общий) - имитация возможностей человеческого мозга включая аналитическое мышление и другие интеллектуальные способности что даёт возможность в решении общих задач, без заранее запрограммированных моделей для решения этой задачи.
    
    Хз почему ты решил про замену человека и потерю многими работы заговорить, но прямо сейчас уже кучу людей поувольняли, тот-же пример с увольнениями Илона Маска с завода по производству Tesla. И всё это реальность а не какая-то выдумка или теория заговора. Будет автоматизация (что уже как давно возможна, даже без gpt), автоматизация повлечет за собой безработицу, безработица к невозможности купить банально еду. Невозможность людей купить еду повлечёт массовые беспорядки, воровство и т.д. и т.д.
    Почему будет автоматизация? Это тебе к понимаю того как работает экспоненциальный рост + принципы бизнеса (масштабирование, уменьшение расходов и т.д).
    
    "Может он делать за меня мою работу?" - смотря о какой работе идёт речь. Раньше думали что программистов нельзя заменить, а щас тот-же gpt пишет код лучше джунов, а даже иногда лучше мидлов.
    "нужно составлять ТЗ для него " - это можно автоматизировать с помощью того-же gpt. Создай примерный шаблон тз, сохрани его, и по этому шаблону, своим языком объясни что нужно сделать и он тебе составит ТЗ.
    
    arantar
    14.05.2024 09:39
    #26828139
    del

datacompboy
14.05.2024 09:39
#26824593
+1
"меньше цены" или "меньше ценности"?
1. datacompboy
  14.05.2024 09:39
  #26825989
  +1
  ок, дошло, где ударение в слове. :D

oleg_rico
14.05.2024 09:39
#26825457
Везде в новостях трубят что бесплатные юзеры получат к ней доступ. У меня есть бесплатный аккаунт но как получить доступ к этой модели так и не понял:)
1. Fell-x27
  14.05.2024 09:39
  #26825527
  Возможно, на бесплатных еще не раскатали.
1. h45h47
  14.05.2024 09:39
  #26825839
  +4
  Она сама включается вместо 3.5, но спустя примерно 5-7 запросов вылезло окошко, что бесплатные токены кончились, и появятся только через два часа, а пока опять 3.5.
  
  К слову, код пишет круто! 3.5 о криптографии на эллиптических кривых в SageMath было бессмысленно спрашивать, а 4о с первого раза рабочий код выдаёт, поясняет красиво.
  1. Aniro
    14.05.2024 09:39
    #26828003
    Как это выглядит в интерфейсе? Вам похоже повезло с ранним включением, у меня пока нету:
    
    Это точно все тотже 3.5. Вот ответы 4о для сравнения:
    
    В коддинге, кстати, улучшения заметны только если с 3.5 сравнивать. По сравнению с 4-турбо улучшения спорные. По первым впечатления - ошибок меньше, код качествнней, но при этом плохо следует инструкциям, просто игнорируя те, которые не нравятся. Похоже надо ждать следующую платную версию. (i-am-good-gpt2-chatbot на арене был сильно лучше чем релиз 4o)
1. Eggsiname
  14.05.2024 09:39
  #26826669
  Даже в твоём тексте написано "ПОЛУЧАТ" - будущее время.
  Доступ к gpt-4o получают постепенно (кто-то уже получил, кто-то позже получит)

sota-placeholder
14.05.2024 09:39
#26828955
Попробовал поговорить с обновой, и первое впечатление осталось очень даже позитивное. Немного разочаровало, что модель не учитывает предыдущую историю переписок и общаться с ней надо начинать с заново. Однако, она на лету конспектирует и запоминает необохдимую инфу - факты о юзере, контекст беседы, задачи, цели и т.д.

Очень хочется попробовать её в качестве переводчика.

edogs
14.05.2024 09:39
#26830567
+1
Попробовали, первое впечатление было хорошее, а вот потом...
Кратко: есть ощущение, что 4-омни стал "человечнее". И это минус. Вместо информации и корректного ответа зачастую получаем мнение и неточности.
Есть четкий чек-лист шагов какого-то процесса, он вместо выдачи этого чек-листа, опять же, по человечески догадывается что должно делаться в ходе этого процесса, выбить из него формальный чек-лист нереально. Спрашиваешь кому принадлежит цитата, он анализирует ее смысл и делает вывод кому она могла бы принадлежать, кому она на самом деле принадлежит - ему по фиг, надо специально уточнять.
Точность и достоверность ответов стала ниже, а вот спекуляций и рассуждений стало больше. В принципе в тех областях, где точного ответа нет, это плюс. Но там где он нужен - омни просто неюзабелен, использовали 4-турбо в результате.

DorianKon
14.05.2024 09:39
#26830951
Не пойму, зачем автор так врёт? Вот что мне написала новая модель без платной подписки: "К сожалению, я не могу рисовать изображения. Однако, я могу предложить описания или помочь найти инструменты, которые помогут тебе нарисовать кота. Хочешь, чтобы я помог с этим?"