Последний месяц выдался особенно насыщенным для мира ИИ: OpenAI неожиданно устроила открытую сессию вопросов-ответов на Reddit и рассказала о своих планах, Google с новой версией Gemini возглавила основные рейтинги, а китайские компании DeepSeek и Alibaba представили модели, способные конкурировать с нашумевшей o1 в области рассуждений.

Мы собрали главные новости, исследования и релизы ноября: от амбициозных планов xAI по строительству суперкомпьютера на 100 000 GPU до неожиданных новостей из области квантования больших моделей. Новые инструменты от технологических гигантов, свежие научные работы и интересные открытия — в нашем новом выпуске ИИ-дайджеста!


Оглавление

Главные новости и события

Интересные открытия

Новые модели

Свежие инструменты

Исследования на почитать

Заключение

Главные новости и события

Целая пачка новостей от OpenAI

Похоже, в OpenAI решили раскрыть карты: компания неожиданно провела сессию AMA на Reddit и поделилась амбициозными планами на будущее. 

Самое главное: GPT-5 можно не ждать. Компания сфокусирована на развитии семейства o1, которое в будущем планируют объединить в единую систему. Параллельно идет работа над улучшением существующих решений: недавно обновили GPT-4o для более качественной генерации текста и работы с файлами. В разработке находится новая модель для работы с изображениями и видео (Альтман загадочно намекает, что «ожидание того стоит»). Главный приоритет сейчас — борьба с галлюцинациями через эксперименты с reinforcement learning.

Ответ Альтмана касательно новой text-to-image модели
Ответ Альтмана касательно новой text-to-image модели

Что касается практических улучшений — OpenAI работает над поисковыми возможностями, планируя создавать динамические персонализированные веб-страницы в ответ на запросы. Параллельно идет работа над расширением контекстного окна и улучшением мультиязычности. Отдельное внимание уделяется снижению стоимости инференса: по мнению Альтмана, модели можно удешевить еще в десятки раз.

Кроме того, по данным инсайдеров The Verge, в январе компания готовится запустить Operator — ИИ-агента для автономного управления компьютером. Утверждается, что он сможет самостоятельно писать код и выполнять различные задачи, от бронирования путешествий до работы с файлами. Это согласуется с недавними заявлениями Альтмана о том, что агенты станут следующим важным этапом в развитии ИИ.

Впрочем, не все так гладко: недавно OpenAI покинул очередной сотрудник, публично раскритиковав подход компании к безопасности и управлению персоналом.

Google Gemini: новая модель на вершине рейтингов и выход на iPhone

Google продолжает наступление на позиции OpenAI: их новая модель Gemini-Exp-1121 возглавила рейтинг Imarena Chatbot Arena, обойдя GPT-4o и o1-preview в «слепом» тестировании — когда пользователи оценивают модели, не зная, с какой именно работают. Особенно впечатляющие результаты модель показала в математических задачах и работе с визуальным контентом. Правда, попробовать её можно пока только через Google AI Studio, и компания не раскрывает, является ли это версией Gemini 1.5 или ранним прототипом Gemini 2.

Топ-10 моделей на арене
Топ-10 моделей на арене

Параллельно компания выпустила Gemini Live для iPhone — новое поколение голосового ассистента, которое должно заменить устаревший Google Assistant. В отличие от предшественника, построенного на старых технологиях, Gemini Live использует возможности больших языковых моделей для ведения более «живых» диалогов. 

Интересно, что релиз происходит на фоне серьезной реорганизации: команда голосового ассистента недавно пережила сокращения, а подразделение Gemini было интегрировано в DeepMind. По словам Сундара Пичаи, это часть стратегии по повышению эффективности. Reuters же сообщает, что DeepMind сейчас работает над новыми техниками улучшения AI-моделей, поскольку традиционный подход простого увеличения размера начал сталкиваться с неожиданными проблемами.

xAI собирает $6 млрд на суперкомпьютер

Стартап Илона Маска xAI готовится к серьезному расширению вычислительных мощностей. Компания планирует привлечь $6 млрд инвестиций для покупки 100 000 чипов Nvidia и строительства нового суперкомпьютера в Мемфисе. Большая часть средств — $5 млрд — поступит от суверенных фондов Ближнего Востока, остальной миллиард обеспечат другие инвесторы.

Такой масштабный проект оценивает компанию в $50 млрд — это впечатляющая цифра для стартапа, запущенного в 2023 году. Похоже, Маск всерьез намерен побороться за место среди лидеров индустрии ИИ.

Anthropic поднимает ставки

В Anthropic явно решили удивить рынок: компания не только выпустила радикально обновленный Haiku 3.5, но и существенно расширила возможности всей линейки Claude. Правда, некоторые изменения понравятся не всем.

Начнем с Haiku 3.5, который оказался совсем не таким «малышом», как его предшественник Haiku 3. По данным независимых тестов от Artificial Analysis, Haiku 3.5 добрался до уровня самой мощной модели предыдущего поколения — Claude 3 Opus. Обучен он на самых свежих данных и, судя по всему, готовится занять место Sonnet в новой линейке продуктов.

Однако за улучшения придется платить, причем в буквальном смысле. Стоимость использования выросла в четыре раза: $1 за миллион токенов на входе и $5 на выходе. Это в 10 раз дороже последних моделей от Google и OpenAI. Аргументируют такую стоимость тем, что модель показала себя слишком хорошо на финальных тестах. Видимо, в Anthropic решили, что за гениальность надо платить. Хотя скорость инференса снизилась вдвое по сравнению с предыдущей версией.

Сравнение по параметрам качества, скорости и цены от Artificial Analysis. Посмотреть подробнее можно по этой ссылке
Сравнение по параметрам качества, скорости и цены от Artificial Analysis. Посмотреть подробнее можно по этой ссылке

Старый-добрый Haiku 3, кстати, никуда не денется — его оставят для тех, кто хочет все же немного сэкономить.

Впрочем, компания не ограничилась только новой моделью. Claude получил несколько интересных апгрейдов:

  • Визуальный PDF: теперь модель действительно «видит» документы, а не просто читает из них текст. Можно загружать сложные презентации с графиками — Claude разберется. Функция доступна в чате (нужно включить Visual PDF) и через API.

  • Кастомные стили общения: можно выбрать готовый (краткий, развернутый, формальный) или научить модель своему собственному, загрузив образец текста.

  • Счетчик токенов в API: казалось бы, мелочь, а приятно! Функция count_tokens позволяет проверять промпты перед отправкой бесплатно и без влияния на ваш API-план.

И напоследок — возможно, самое амбициозное обновление месяца: Anthropic представили Model Context Protocol (MCP) — открытый протокол для интеграции языковых моделей с любыми источниками данных.

До сих пор подключить LLM к GitHub, Google Календарю или Notion было той еще головной болью: приходилось либо использовать встроенные модели сервиса, либо писать собственный код для интеграции. MCP решает эту проблему, позволяя любым ИИ-инструментам безопасно подключаться к совместимым серверам — от локальных баз данных до облачных сервисов.

Пока протокол доступен только для локального использования, но Anthropic уже подготовили готовые интеграции с GitHub, Slack и SQL-базами данных. Подключение занимает считаные минуты: достаточно установить MCP в Claude Desktop и развернуть нужный сервер. 

Интересные открытия

Роботы с начинкой из LLM оказались крайне уязвимыми к джейлбрейкам 

Пока технологические гиганты соревнуются в разработке все более продвинутых моделей, исследователи из Университета Пенсильвании обнаружили серьезную проблему безопасности: любого робота под управлением LLM можно взломать со 100% гарантией. Их алгоритм RoboPAIR научился обходить все защитные механизмы за считаные дни.

Принцип работы RoboPAIR элегантен в своей простоте: одна языковая модель генерирует промпты для взлома другой. «Атакующая» модель анализирует ответы цели и корректирует свои запросы, пока не найдет способ обойти фильтры безопасности. Для успешной атаки алгоритму нужен только API целевого робота, чтобы формировать команды в исполняемом виде. Дополнительная «модель-судья» проверяет, что сгенерированные команды физически выполнимы с учетом ограничений окружающей среды.

Забавная иллюстрация jailbreak’а из исследования
Забавная иллюстрация jailbreak’а из исследования

Исследователи протестировали RoboPAIR на трех системах разной степени закрытости: робопсе Go2 (полностью закрытая система), роботе Clearpath Robotics Jackal (частично открытый код) и симуляторе беспилотного автомобиля от Nvidia (открытый исходный код). Во всех случаях алгоритм добился успеха, причем взломанные системы не просто выполняли вредоносные команды, но и сами начинали предлагать опасные варианты действий.

Согласие робота на вредоносные действия через прямые запросы vs взлом через ROBOPAIR
Согласие робота на вредоносные действия через прямые запросы vs взлом через ROBOPAIR

Полное исследование можно прочитать тут, а видеодемонстрация доступна по этой ссылке.

Еще одна проблема масштабирования LLM 

Похоже, индустрия столкнулась с новым препятствием на пути к увеличению размера моделей. Исследователи ведущих университетов обнаружили, что квантование — популярная техника сжатия моделей — перестает работать при увеличении их размера.

Квантование позволяет уменьшить количество бит, необходимых для хранения параметров модели, и широко используется в индустрии: сначала обучают большую модель, а затем создают ее облегченную версию. Однако выяснилось, что чем больше исходная модель и чем дольше она обучалась, тем сильнее квантование ухудшает ее характеристики.

На практике это означает, что начиная с определенного момента квантование перестает масштабироваться, и проще обучить новую маленькую модель, чем пытаться сжать большую — результат будет не хуже. Хотя проблемы квантования замечали и раньше (многие жаловались на квантованную версию Llama 3), до сих пор никто не доказывал их эмпирически. 

Minecraft и тысяча AI-агентов: чем закончился эксперимент

Еще в сентябре был анонсирован так называемый «Проект Sid», в котором исследователи запустили тысячу ИИ-агентов в Minecraft и те построили собственную цивилизацию. Сейчас же наконец стал доступен отчет по эксперименту, который было действительно интересно прочитать. Рассказываем в общих чертах, а полный отчет можно найти тут.

В основе проекта лежит архитектура PIANO (Parallel Information Aggregation via Neural Orchestration), которая решает главную проблему многоагентных систем — координацию действий в реальном времени. PIANO позволяет разным модулям агента (память, планирование, социальное взаимодействие) работать параллельно, при этом сохраняя согласованность через «когнитивный контроллер». 

Архитектура PIANO
Архитектура PIANO

В итоге, агенты не просто выживали в игре — они создали полноценное общество. Появилась специализация: одни стали фермерами, другие — шахтерами или инженерами. Причем выбор профессии зависел от типа общества: в военных поселениях появлялись разведчики и стратеги, в художественных — кураторы и коллекционеры.

Самое интересное, что агенты сохраняли свою индивидуальность. Интроверты поддерживали меньше социальных связей, чем экстраверты, а некоторые отношения оставались односторонними — совсем как у людей. За счет RL-подобной когнитивной архитектуры агенты научились формировать долгосрочные отношения и автономно создавать социальные группы.

Кстати, к ним до сих пор можно присоединиться вот по этой ссылке.

Новые модели

Qwen2.5-Coder: от малышки до флагмана в 32B 

Китайские компании в этом месяце как будто устроили распродажу: что ни день, то новый релиз с претензией на рекорд.

Команда Qwen, известная своими языковыми моделями, выпустила новую линейку специализированных моделей для программирования совместно с Alibaba Group. В семействе Qwen2.5-Coder шесть LLM — от легковесной в 0.5B параметров до мощного флагмана в 32B. Все они уже висят в открытом доступе.

Сравнение моделей (источник изображения)
Сравнение моделей (источник изображения)

Флагманская версия превзошла не только открытые модели вроде DeepSeek-Coder-2, но и обошла GPT-4o на ключевых тестах HumanEval и EvalPlus. До абсолютного рекорда на CodeArena не хватило всего 0.2%.

DeepSeek R1-Lite обходит o1 в математике 

DeepSeek, один из главных конкурентов OpenAI в Китае, представил модель, способную соперничать с нашумевшей o1. R1-Lite-Preview доступна в чате на сайте компании как режим «Deep Think» и уже демонстрирует первые результаты.

Модель не только достигает уровня o1-preview на Codeforces, но и превосходит ее на тестах MATH и AIME 2024. Особенность модели — работа с длинными цепочками рассуждений до 100К токенов, которые, в отличие от o1, показываются полностью. API и веса обещают открыть в ближайшее время.

Marco-o1: Alibaba меняет подход к рассуждениям 

Технологический гигант Alibaba активно участвует в гонке за создание моделей с продвинутыми возможностями рассуждения. Международное подразделение компании выпустило модель Marco-o1, которая отказывается от стандартных техник в пользу инновационного решения.

Вместо популярных ревард-моделей Marco-o1 использует поиск по дереву методом Монте-Карло (Monte Carlo Tree Search, MCTS). На MGSM модель показывает 90% — уровень ранних версий gpt-4o. 

Результаты на бенчмарке MGSM (источник изображения)
Результаты на бенчмарке MGSM (источник изображения)

Хотя сравнительных бенчмарков почти нет, код и веса модели уже доступны в открытом доступе. Отчет также можно почитать тут.

Fugatto: NVIDIA объединяет звуки 

NVIDIA представила фундаментальную модель для работы со звуком, замахнувшись на территорию специализированных компаний. По словам разработчиков, Fugatto умеет генерировать и обрабатывать любые звуки — от человеческой речи с акцентами до сложных природных аудиосцен.

Несмотря на компактный размер в 2.5B параметров, модель превосходит по возможностям решения текущих лидеров рынка — ElevenLabs, StabilityAI и Meta. За счет техники ComposableART она умеет комбинировать и динамически изменять звуки, которые на тренировке встречались только отдельно. Обучение прошло на скромном кластере из тридцати двух NVIDIA A100.

Pixtral Large: Mistral выходит на рынок мультимодальных моделей 

Французский стартап Mistral, известный своими открытыми языковыми моделями, сделал серьезную заявку на лидерство в мультимодальном ИИ. Их новая модель Pixtral Large с 124 миллиардами параметров объединяет работу с текстом и изображениями на уровне ведущих закрытых систем.

Сравнение по бенчмаркам (источник изображения)
Сравнение по бенчмаркам (источник изображения)

Модель обрабатывает до 30 изображений за раз или 300-страничные документы. На ее основе обновлен фирменный чат-бот Le Chat, получивший функции веб-поиска с цитированием, анализа документов и генерации изображений, что приближает его к возможностям ChatGPT. Уже на Hugging Face.

Свежие инструменты

Для работы с контентом

  • Learn About: Google представила инструмент для самообучения, который превращает любую тему в интерактивный учебник. Введите интересующий вопрос — получите структурированное объяснение с возможностью углубиться в детали одним кликом и проверить понимание через мини-тесты. 

  • Suno V4 делает создание музыки более доступным. Новая версия не просто генерирует мелодии, но создает полноценные композиции с динамической структурой, а помощник ReMi помогает с текстами песен. Качество звука заметно улучшилось по сравнению с предыдущими версиями.

Для разработчиков

  • Microsoft OmniParser — это открытый фреймворк для создания компьютерных ассистентов. Он анализирует интерфейсы приложений и преобразует их в понятные для ИИ структуры, позволяя моделям эффективно управлять любыми программами. 

  • Microsoft Magnetic-One объединяет несколько ИИ-агентов в единую систему под управлением центрального оркестратора. Каждый агент специализируется на своей задаче: один ищет информацию в интернете, другой работает с файлами, третий пишет код — и все вместе они решают сложные многоступенчатые задачи.

Иллюстрация того, как система ИИ-агентов выполняет задание (источник изображения)

  • Anthropic представила инструмент для автоматизации промпт-инжиниринга. Prompt Improver анализирует промпты и предлагает улучшения на основе лучших практик, что особенно полезно при переносе промптов между разными моделями. Тесты показывают рост точности на 30%. Доступен в консоли.

Для удобства

  • Listy решает проблему разрозненных закладок — теперь любимые места из Google Maps, статьи из Pocket, фильмы из IMDb и книги из Goodreads собраны в одном месте с удобным поиском и организацией.

  • Feta позволяет извлечь больше пользы из рабочих созвонов. Автоматически документирует обсуждения, выделяет ключевые решения и следит за выполнением задач.

  • Buzzabout анализирует социальные сети и форумы, чтобы найти мнения о вашем продукте. Помогает понять потребности пользователей и корректировать стратегию развития на основе реальных данных.

  • Superchat объединяет бизнес-аккаунты WhatsApp и Instagram в единый интерфейс, упрощая работу с клиентами и увеличивая конверсию за счет быстрых ответов и автоматизации.

  • Blitz — помощник по управлению временем. Встроенный таймер Pomodoro помогает сохранять фокус, а умная категоризация задач — расставлять приоритеты.

  • Layer визуализирует бизнес-цели в виде интеллект-карт, помогая командам лучше понимать взаимосвязи между задачами и отслеживать прогресс по целевым показателям. 

Исследования на почитать

Boltz-1: MIT достигает точности AlphaFold3 в открытом доступе

О чем: Исследователи MIT создали открытую модель для предсказания структуры биомолекул, не уступающую AlphaFold3. Новые алгоритмы MSA-паринга и унифицированный подход к кропингу позволили снизить вычислительные затраты, сделав продвинутое биомолекулярное моделирование более доступным.

Ссылка на исследование

Common Corpus: крупнейший многоязычный датасет для обучения 

О чем: Pleias выпустила открытый датасет с более чем 2 триллионами токенов контента на разных языках. Главная фишка — весь контент лицензирован, а качество данных тщательно проверено.

Ссылка на датасет

AnimateAnything: стабильная генерация анимации 

О чем: Китайские ученые представили новый метод генерации видео, использующий мультимасштабную сеть контроля признаков и стабилизацию на основе частот для создания точной и стабильной анимации без мерцаний.

Иллюстрация из исследования: Пайплайн AnimateAnything
Иллюстрация из исследования: Пайплайн AnimateAnything

Ссылка на исследование

LLaVA-o1: пошаговые рассуждения для мультимодальных моделей

О чем: Новая версия Vision-Language модели улучшает точность в задачах на рассуждение за счет автономного многоступенчатого анализа и нового метода масштабирования во время инференса.

Ссылка на исследование

Top-nσ: эффективная фильтрация токенов 

О чем: Новый метод сэмплинга для языковых моделей улучшает качество рассуждений за счет статистической фильтрации токенов на уровне пре-софтмакс логитов, сохраняя стабильность при разных температурах.

Ссылка на исследование

Generative World Explorer: мысленные исследования для ИИ 

О чем: Framework Genex позволяет агентам мысленно исследовать масштабные 3D-среды и обновлять свои представления на основе воображаемых наблюдений. Это улучшает принятие решений без необходимости постоянного физического исследования пространства.

Иллюстрация из исследования: процесс воображаемого изучения местности
Иллюстрация из исследования: процесс воображаемого изучения местности

Ссылка на исследование

Статистический подход к оценке моделей 

О чем: Исследователи предложили новые статистические рекомендации для оценки ИИ-моделей. Методология включает использование центральной предельной теоремы, кластеризацию стандартных ошибок и анализ парных различий для более надежного сравнения моделей.

Ссылка на исследование

Роль «конституций» в обучении с ИИ-фидбеком 

О чем: Детальные «конституции» улучшают качество эмоционального фидбека в ИИ-моделях, но не влияют на практические навыки, такие как сбор информации в медицинских интервью. Интересный пример того, как улучшение в одной области не гарантирует прогресса в другой.

Ссылка на исследование

Claude 3.5 осваивает компьютер 

О чем: Первое серьезное исследование способностей Claude 3.5 работать с графическим интерфейсом показывает многообещающие результаты. Модель уже неплохо справляется с базовыми задачами, хотя до полной автономности еще далеко. 

Иллюстрация из исследования: Claude осваивает Heartstone
Иллюстрация из исследования: Claude осваивает Heartstone

Ссылка на исследование

Заключение

На этом мы завершаем наш дайджест. Ноябрь выдался насыщенным: новые модели с впечатляющими возможностями, прорывные исследования и целый арсенал инструментов для работы с ИИ. Похоже, темпы развития отрасли только ускоряются, и то, что вчера казалось прорывом, сегодня становится стандартом.

Если вам понравился дайджест, поделитесь в комментариях, что показалось наиболее интересным и перспективным. Будем рады обсудить!

Комментарии (1)


  1. edyapd
    03.12.2024 17:31

    Странно, что в статье не обмолвились о ещё одной модели от Qwen - QwQ-32B-Preview.

    На данный момент, по моему мнению, это лучшая модель для локального использования. Квантованная q4 даже помещается в 24ГБ видеопамяти. Единственный, толстый минус, она часто срывается в китайский и английский языки, если задавать вопросы на русском.

    Gemini-Exp-1121 нельзя сказать, что она вырвалась вперёд. Я бы сказал, что с GPT4o они идут ноздря к ноздре. На 02.12.24 GPT4o снова обошёл Gemini на несколько балов.