Мы еще не отошли от GPT-4o, как Anthropic вырывается на сцену с новой моделью Claude 3.5 Sonnet, которая по заверениям разработчиков превосходит GPT-4o. Anthropic вновь раздвигает границы возможностей ИИ.
В этой статье мне бы хотелось оценить способности новой модели и, конечно, проверить не соврали ли нам о функционале Claude 3.5 Sonnet.
Claude 3.5 Sonnet. Что нового?
Знакомьтесь, Claude 3.5 Sonnet — новый член семьи искусственного интеллекта от Anthropic. Эта модель создана, чтобы понимать и генерировать текст еще лучше, чем ее предшественники.
Что же нового? Claude 3.5 Sonnet в два раза быстрее Claude Opus, умеет лучше рассуждать и обладает передовыми способностями визуального восприятия. Она точнее, быстрее и надёжнее предыдущих версий.
Anthropic стремится к тому, чтобы Sonnet напрямую конкурировал с GPT-4 от OpenAI, и надеется, что пользователи оценят его новые возможности. Модель уже превосходит собственную разработку Anthropic — Claude 3 Opus — по многим параметрам, включая скорость, стоимость и результаты тестов.
Модель устанавливает новые стандарты в таких областях, как рассуждения на уровне выпускника (GPQA), знания на уровне бакалавра (MMLU) и навыки программирования (HumanEval):
Знаете, чем еще примечателен Claude 3.5 Sonnet? Он научился понимать нюансы, юмор и даже справляется со сложными инструкциями.
Теперь можно не бояться, что текст будет звучать сухо и безжизненно: Sonnet пишет довольно естественно и увлекательно.
С кодом дела обстоят не хуже: внутренние испытания показали, что Claude 3.5 Sonnet решил 64% задач, оставив далеко позади своего предшественника Claude 3 Opus (тот справился только с 38%).
Sonnet пишет, редактирует и выполняет код, словно это для него детская игра. Перевод кода, обновление старых программ, миграция баз данных — ему всё по плечу.
Claude 3.5 Sonnet еще и мастер визуализации. Anthropic превзошли сами себя: эта модель работает с изображениями даже лучше, чем Claude 3 Opus.
Представьте: Sonnet не просто "видит" картинку, он анализирует диаграммы и графики, понимает, что на них изображено, и даже может распознать текст на нечетких фотографиях.
Claude 3.5 Sonnet умеет генерировать интерактивные диаграммы и даже создавать целые презентации на основе JSON-данных.
И самая главная особенность, это Artifacts (аналог Advanced Data Analysis в ChatGPT). Представьте: вы просите Claude сгенерировать код, написать текст или даже создать дизайн сайта. Вместо того, чтобы просто выдать результат, Sonnet создает Artifact — интерактивный объект, с которым можно работать прямо в чате.
Хотите поправить код, отредактировать текст или изменить дизайн? Пожалуйста! Artifacts превращают общение с Claude в увлекательный творческий процесс, где вы и искусственный интеллект работаете бок о бок.
Кстати о стоимости: использование модели обойдется в 3 доллара за миллион входных токенов и 15 долларов за миллион выходных. Контекстное окно составляет 200 тысяч токенов.
Важно отметить, что Claude 3.5 Sonnet — это только первый шаг. В ближайшем будущем Anthropic планирует выпустить Claude 3.5 Haiku и Claude 3.5 Opus, которые станут ещё более впечатляющими.
Полный список моделей Claude:
Кстати, внешние эксперты подтвердили, что Claude 3.5 Sonnet соответствует всем стандартам безопасности.
Оценим сами
Стихи
Слова это, конечно, хорошо, но проверить на практике - еще лучше.
Первое, посмотрим как хорошо модель пишет стихи. Я попрошу несколько моделей написать стихи по мотивам Бродского. Для таких тестов буду использовать BotHub, ввиду некоторых сложностей с официальным сайтом, а также из-за того, что модель больше "подчиняется" через API. Начнем с новичка:
В этом стихотворении действительно чувствуется атмосфера одиночества и тоски, так свойственная Бродскому. Лаконичные и точные образы тоже напоминают его стиль.
Однако стихотворению не хватает глубины и многослойности, присущих поэзии Бродского. Тема одиночества раскрыта слишком прямолинейно, без характерной для него иронии и философской задумчивости.
Но в целом, стихотворение звучит неплохо!
Сравним с предшественником:
Тема одиночества, поиска смысла жизни, обращение к книгам — всё это очень созвучно поэзии Бродского. Атмосфера задумчивости и рефлексии тоже передана очень точно.
Теперь посмотрим на GPT-4o:
Здесь наблюдаем попытку создания философской образности, использование развёрнутых метафор, созерцательный настрой. Но стих перегружен образами, которые не всегда работают на общую идею. Слишком много пафоса и прямолинейности в выражении чувств, чего у Бродского практически не встретишь.
И, например, оценим Gemini 1.5 Pro:
Образ города, особенно Петербурга, часто встречается у Бродского. Здесь присутствует такая же мрачноватая, осенняя атмосфера. Не хватает характерной для Бродского интеллектуальности и сложности языка. Рифмовка простовата, а образ лирического героя шаблонен.
Вообще, нужно понимать, конечно, что подражание стилю — это не только использование определенных образов или тем, но и умение мыслить и чувствовать так же, как поэт, чего ИИ пока не умеет. Однако, именно у Claude лучше всего получается писать и Соннет мне нравится гораздо больше за счет своей лаконичности.
Код страницы скрина
Я подам на вход скриншот страницы и попрошу каждую из моделей написать код для нее.
Claude 3.5 Sonnet:
Сlaude 3 Оpus:
ChatGPT-4o:
Gemini 1.5 Pro:
Итак, результаты перед глазами. В целом, Соннет показывает себя достойно, особенно в сравнении с предшественником. С точки зрения визуала лучше всего справились Gemini и Sonnet, на мой взгляд.
Artifacts
Я очень хотела показать работу с Artifacts, однако мой аккаунт постоянно подвергался блокировке, из-за чего я не смогла подготовить материал (не кидайте тапками, честно пыталась сделать все по хорошему, но теперь я тильтанула), однако все-таки примеры простых пользователей показать имею возможность.
Например, здесь пользователь попросил модель создать карту фэнтези мира, павшего от старой магии, с культурными и военными соображениями:
Или здесь тот же самый пользователь попросил сделать интерактивные приложение, демонстрирующее центральную предельную теорему:
Или, например, здесь пользователь попросил визуализировать Deep Learning:
Таким образом я вместе с вами пробежалась по новой модели, которая после себя оставила положительные впечатления. Конечно, игра престолов на поле генеративных моделей только наращивает обороты: компании пытаются прыгнуть выше головы, чтобы переиграть своих конкурентов, а нам остается наблюдать за этим.
В целом, очень грустно, что я не смогла предоставить вам своих результатов работы с Artifacts, поскольку это почти главная фича в обновлении, но я буду только рада посмотреть на ваши результаты в комментариях.
Спасибо за внимание!
Точно! Сама модель доступна здесь.
Комментарии (34)
vagon333
22.06.2024 14:48Пользовался GPT4 пока не появился Opus3.
Opus3 хорош для работы с текстом и кодом (text summarizaion, code generation, code migration).
После выхода GPT4o качество GPT улучшилось и Opus3 перестал использовать.
Сегодня попробовал Sonnet 3.5 в чате и API для работы с текстами (80к токенов summarize to 800 токенов).
Сложно сказать. Нужно еще сравнивать качество с GPT4o, но пока придерживаюсь GPT4o.
По цене (сегодняшние тесты):
-- $1 за 300тыс токенов на Sonnet 3.5.
-- GPT4o получилось $10 за 2млн токенов.
Это в основном input tokens.
alex_k777
22.06.2024 14:48А чего? Unfortunately, Claude is only available in certain regions right now. Где Россия то?
MountainGoat
22.06.2024 14:48+3Россия там, куда сама залезла. Туда ещё свет не заглядывает.
ИИ говорит по‑русски и читал Бродского. Это уже круче, чем можно было ожидать.
alex_k777
22.06.2024 14:48+1это повод лишать обычных россиян, которые никакого отношения не имеют к политике и может не поддерживают ее, возможностей ИИ?
IgorAlentyev
22.06.2024 14:48+3А как ты определишь кто регается? Товарищ майор или Иван из города Тверь?
Ilyasyakubov
22.06.2024 14:48+3А это так принципиально? Чатботы — это гражданская технология.
MadeByFather
22.06.2024 14:48+3Конечно это имхо, но в последнее время в интернете появилась куча комментариев как будто от ИИ - в частности, пропаганды
alex_k777
22.06.2024 14:48да пусть регается и что он сможет сделать? ИИ то уже обучен на какой-то базе знаний. Думаешь можно свою пропаганду подсунуть?
lomov_vas
22.06.2024 14:48+1>обычных россиян, которые никакого отношения не имеют к политике
Открой конституцию и читай:Статья 3
1. Носителем суверинитета и единственным источником власти в Российской Федерации является ее многонациональный народ.
То есть, обязанность народа - заниматься политикой, так же как обязанность дворника - прибирать двор. Если во дворе свалка образовалось, никуда ты ответственность не перекинешь.MadeByFather
22.06.2024 14:48Во-первых, не надо тыкать незнакомым людям
Во-вторых, возвращайтесь лет через 10, когда у вас появятся знания о мире чуть больше, чем после обществознания за 9 класс. Реальные политические устройства государств чуть сложнее, чем одна формальная книжка в 30 листов
lomov_vas
22.06.2024 14:48+2Вау, неужели?
Окей, скажи, кто виноват в том, что в 90е, когда я в школу ходил, либо буквально взяли взятку у правительство, выбрав благосостояние в обмен на уход из политики? Классическое "что хотите, то воротите, а мы не при делах"?
Кто про*бал реальный парламент? Кто дал уничтожить независимые СМИ в стране, наплевать на конституцию и де факто установить диктатуру? Электорат. Народ. Наши отцы и матери. И такие как ты, ведь именно позиция "Обычные люди вне политики" привела нас туда, куда привела, и теперь мы все расплачиваемся за такой подход, и если мы ничего с этим не сделаем, расплачиваться за него будут и наши дети.Wesha
22.06.2024 14:48Простите, что встреваю, но также хотелось бы узнать, кто немного ранее положил известно что известно с чем на результаты референдума, тсзть самое что ни на есть волеизъявление народа, прямо народнее уж и некуда.
Spotyku
22.06.2024 14:48+1животные не имеют отношения к политике, а любой человек в обществе - это субъект политики. Да же Вы сейчас со своим комментарием оказались по уши в политике. Да ещё радикальной.
XTBZ
Claude, по опыту, генерирует и объясняет код лучше.
Конкуренция заставляет открывать доступ к ранее платным моделям, это радует