Последний месяц выдался особенно насыщенным для мира ИИ: OpenAI неожиданно устроила открытую сессию вопросов-ответов на Reddit и рассказала о своих планах, Google с новой версией Gemini возглавила основные рейтинги, а китайские компании DeepSeek и Alibaba представили модели, способные конкурировать с нашумевшей o1 в области рассуждений.
Мы собрали главные новости, исследования и релизы ноября: от амбициозных планов xAI по строительству суперкомпьютера на 100 000 GPU до неожиданных новостей из области квантования больших моделей. Новые инструменты от технологических гигантов, свежие научные работы и интересные открытия — в нашем новом выпуске ИИ-дайджеста!
Оглавление
Главные новости и события
Целая пачка новостей от OpenAI
Похоже, в OpenAI решили раскрыть карты: компания неожиданно провела сессию AMA на Reddit и поделилась амбициозными планами на будущее.
Самое главное: GPT-5 можно не ждать. Компания сфокусирована на развитии семейства o1, которое в будущем планируют объединить в единую систему. Параллельно идет работа над улучшением существующих решений: недавно обновили GPT-4o для более качественной генерации текста и работы с файлами. В разработке находится новая модель для работы с изображениями и видео (Альтман загадочно намекает, что «ожидание того стоит»). Главный приоритет сейчас — борьба с галлюцинациями через эксперименты с reinforcement learning.
Что касается практических улучшений — OpenAI работает над поисковыми возможностями, планируя создавать динамические персонализированные веб-страницы в ответ на запросы. Параллельно идет работа над расширением контекстного окна и улучшением мультиязычности. Отдельное внимание уделяется снижению стоимости инференса: по мнению Альтмана, модели можно удешевить еще в десятки раз.
Кроме того, по данным инсайдеров The Verge, в январе компания готовится запустить Operator — ИИ-агента для автономного управления компьютером. Утверждается, что он сможет самостоятельно писать код и выполнять различные задачи, от бронирования путешествий до работы с файлами. Это согласуется с недавними заявлениями Альтмана о том, что агенты станут следующим важным этапом в развитии ИИ.
Впрочем, не все так гладко: недавно OpenAI покинул очередной сотрудник, публично раскритиковав подход компании к безопасности и управлению персоналом.
Google Gemini: новая модель на вершине рейтингов и выход на iPhone
Google продолжает наступление на позиции OpenAI: их новая модель Gemini-Exp-1121 возглавила рейтинг Imarena Chatbot Arena, обойдя GPT-4o и o1-preview в «слепом» тестировании — когда пользователи оценивают модели, не зная, с какой именно работают. Особенно впечатляющие результаты модель показала в математических задачах и работе с визуальным контентом. Правда, попробовать её можно пока только через Google AI Studio, и компания не раскрывает, является ли это версией Gemini 1.5 или ранним прототипом Gemini 2.
Параллельно компания выпустила Gemini Live для iPhone — новое поколение голосового ассистента, которое должно заменить устаревший Google Assistant. В отличие от предшественника, построенного на старых технологиях, Gemini Live использует возможности больших языковых моделей для ведения более «живых» диалогов.
Интересно, что релиз происходит на фоне серьезной реорганизации: команда голосового ассистента недавно пережила сокращения, а подразделение Gemini было интегрировано в DeepMind. По словам Сундара Пичаи, это часть стратегии по повышению эффективности. Reuters же сообщает, что DeepMind сейчас работает над новыми техниками улучшения AI-моделей, поскольку традиционный подход простого увеличения размера начал сталкиваться с неожиданными проблемами.
xAI собирает $6 млрд на суперкомпьютер
Стартап Илона Маска xAI готовится к серьезному расширению вычислительных мощностей. Компания планирует привлечь $6 млрд инвестиций для покупки 100 000 чипов Nvidia и строительства нового суперкомпьютера в Мемфисе. Большая часть средств — $5 млрд — поступит от суверенных фондов Ближнего Востока, остальной миллиард обеспечат другие инвесторы.
Такой масштабный проект оценивает компанию в $50 млрд — это впечатляющая цифра для стартапа, запущенного в 2023 году. Похоже, Маск всерьез намерен побороться за место среди лидеров индустрии ИИ.
Anthropic поднимает ставки
В Anthropic явно решили удивить рынок: компания не только выпустила радикально обновленный Haiku 3.5, но и существенно расширила возможности всей линейки Claude. Правда, некоторые изменения понравятся не всем.
Начнем с Haiku 3.5, который оказался совсем не таким «малышом», как его предшественник Haiku 3. По данным независимых тестов от Artificial Analysis, Haiku 3.5 добрался до уровня самой мощной модели предыдущего поколения — Claude 3 Opus. Обучен он на самых свежих данных и, судя по всему, готовится занять место Sonnet в новой линейке продуктов.
Однако за улучшения придется платить, причем в буквальном смысле. Стоимость использования выросла в четыре раза: $1 за миллион токенов на входе и $5 на выходе. Это в 10 раз дороже последних моделей от Google и OpenAI. Аргументируют такую стоимость тем, что модель показала себя слишком хорошо на финальных тестах. Видимо, в Anthropic решили, что за гениальность надо платить. Хотя скорость инференса снизилась вдвое по сравнению с предыдущей версией.
Старый-добрый Haiku 3, кстати, никуда не денется — его оставят для тех, кто хочет все же немного сэкономить.
Впрочем, компания не ограничилась только новой моделью. Claude получил несколько интересных апгрейдов:
Визуальный PDF: теперь модель действительно «видит» документы, а не просто читает из них текст. Можно загружать сложные презентации с графиками — Claude разберется. Функция доступна в чате (нужно включить Visual PDF) и через API.
Кастомные стили общения: можно выбрать готовый (краткий, развернутый, формальный) или научить модель своему собственному, загрузив образец текста.
Счетчик токенов в API: казалось бы, мелочь, а приятно! Функция count_tokens позволяет проверять промпты перед отправкой бесплатно и без влияния на ваш API-план.
И напоследок — возможно, самое амбициозное обновление месяца: Anthropic представили Model Context Protocol (MCP) — открытый протокол для интеграции языковых моделей с любыми источниками данных.
До сих пор подключить LLM к GitHub, Google Календарю или Notion было той еще головной болью: приходилось либо использовать встроенные модели сервиса, либо писать собственный код для интеграции. MCP решает эту проблему, позволяя любым ИИ-инструментам безопасно подключаться к совместимым серверам — от локальных баз данных до облачных сервисов.
Пока протокол доступен только для локального использования, но Anthropic уже подготовили готовые интеграции с GitHub, Slack и SQL-базами данных. Подключение занимает считаные минуты: достаточно установить MCP в Claude Desktop и развернуть нужный сервер.
Интересные открытия
Роботы с начинкой из LLM оказались крайне уязвимыми к джейлбрейкам
Пока технологические гиганты соревнуются в разработке все более продвинутых моделей, исследователи из Университета Пенсильвании обнаружили серьезную проблему безопасности: любого робота под управлением LLM можно взломать со 100% гарантией. Их алгоритм RoboPAIR научился обходить все защитные механизмы за считаные дни.
Принцип работы RoboPAIR элегантен в своей простоте: одна языковая модель генерирует промпты для взлома другой. «Атакующая» модель анализирует ответы цели и корректирует свои запросы, пока не найдет способ обойти фильтры безопасности. Для успешной атаки алгоритму нужен только API целевого робота, чтобы формировать команды в исполняемом виде. Дополнительная «модель-судья» проверяет, что сгенерированные команды физически выполнимы с учетом ограничений окружающей среды.
Исследователи протестировали RoboPAIR на трех системах разной степени закрытости: робопсе Go2 (полностью закрытая система), роботе Clearpath Robotics Jackal (частично открытый код) и симуляторе беспилотного автомобиля от Nvidia (открытый исходный код). Во всех случаях алгоритм добился успеха, причем взломанные системы не просто выполняли вредоносные команды, но и сами начинали предлагать опасные варианты действий.
Полное исследование можно прочитать тут, а видеодемонстрация доступна по этой ссылке.
Еще одна проблема масштабирования LLM
Похоже, индустрия столкнулась с новым препятствием на пути к увеличению размера моделей. Исследователи ведущих университетов обнаружили, что квантование — популярная техника сжатия моделей — перестает работать при увеличении их размера.
Квантование позволяет уменьшить количество бит, необходимых для хранения параметров модели, и широко используется в индустрии: сначала обучают большую модель, а затем создают ее облегченную версию. Однако выяснилось, что чем больше исходная модель и чем дольше она обучалась, тем сильнее квантование ухудшает ее характеристики.
На практике это означает, что начиная с определенного момента квантование перестает масштабироваться, и проще обучить новую маленькую модель, чем пытаться сжать большую — результат будет не хуже. Хотя проблемы квантования замечали и раньше (многие жаловались на квантованную версию Llama 3), до сих пор никто не доказывал их эмпирически.
Minecraft и тысяча AI-агентов: чем закончился эксперимент
Еще в сентябре был анонсирован так называемый «Проект Sid», в котором исследователи запустили тысячу ИИ-агентов в Minecraft и те построили собственную цивилизацию. Сейчас же наконец стал доступен отчет по эксперименту, который было действительно интересно прочитать. Рассказываем в общих чертах, а полный отчет можно найти тут.
В основе проекта лежит архитектура PIANO (Parallel Information Aggregation via Neural Orchestration), которая решает главную проблему многоагентных систем — координацию действий в реальном времени. PIANO позволяет разным модулям агента (память, планирование, социальное взаимодействие) работать параллельно, при этом сохраняя согласованность через «когнитивный контроллер».
В итоге, агенты не просто выживали в игре — они создали полноценное общество. Появилась специализация: одни стали фермерами, другие — шахтерами или инженерами. Причем выбор профессии зависел от типа общества: в военных поселениях появлялись разведчики и стратеги, в художественных — кураторы и коллекционеры.
Самое интересное, что агенты сохраняли свою индивидуальность. Интроверты поддерживали меньше социальных связей, чем экстраверты, а некоторые отношения оставались односторонними — совсем как у людей. За счет RL-подобной когнитивной архитектуры агенты научились формировать долгосрочные отношения и автономно создавать социальные группы.
Кстати, к ним до сих пор можно присоединиться вот по этой ссылке.
Новые модели
Qwen2.5-Coder: от малышки до флагмана в 32B
Китайские компании в этом месяце как будто устроили распродажу: что ни день, то новый релиз с претензией на рекорд.
Команда Qwen, известная своими языковыми моделями, выпустила новую линейку специализированных моделей для программирования совместно с Alibaba Group. В семействе Qwen2.5-Coder шесть LLM — от легковесной в 0.5B параметров до мощного флагмана в 32B. Все они уже висят в открытом доступе.
Флагманская версия превзошла не только открытые модели вроде DeepSeek-Coder-2, но и обошла GPT-4o на ключевых тестах HumanEval и EvalPlus. До абсолютного рекорда на CodeArena не хватило всего 0.2%.
DeepSeek R1-Lite обходит o1 в математике
DeepSeek, один из главных конкурентов OpenAI в Китае, представил модель, способную соперничать с нашумевшей o1. R1-Lite-Preview доступна в чате на сайте компании как режим «Deep Think» и уже демонстрирует первые результаты.
Модель не только достигает уровня o1-preview на Codeforces, но и превосходит ее на тестах MATH и AIME 2024. Особенность модели — работа с длинными цепочками рассуждений до 100К токенов, которые, в отличие от o1, показываются полностью. API и веса обещают открыть в ближайшее время.
Marco-o1: Alibaba меняет подход к рассуждениям
Технологический гигант Alibaba активно участвует в гонке за создание моделей с продвинутыми возможностями рассуждения. Международное подразделение компании выпустило модель Marco-o1, которая отказывается от стандартных техник в пользу инновационного решения.
Вместо популярных ревард-моделей Marco-o1 использует поиск по дереву методом Монте-Карло (Monte Carlo Tree Search, MCTS). На MGSM модель показывает 90% — уровень ранних версий gpt-4o.
Хотя сравнительных бенчмарков почти нет, код и веса модели уже доступны в открытом доступе. Отчет также можно почитать тут.
Fugatto: NVIDIA объединяет звуки
NVIDIA представила фундаментальную модель для работы со звуком, замахнувшись на территорию специализированных компаний. По словам разработчиков, Fugatto умеет генерировать и обрабатывать любые звуки — от человеческой речи с акцентами до сложных природных аудиосцен.
Несмотря на компактный размер в 2.5B параметров, модель превосходит по возможностям решения текущих лидеров рынка — ElevenLabs, StabilityAI и Meta. За счет техники ComposableART она умеет комбинировать и динамически изменять звуки, которые на тренировке встречались только отдельно. Обучение прошло на скромном кластере из тридцати двух NVIDIA A100.
Pixtral Large: Mistral выходит на рынок мультимодальных моделей
Французский стартап Mistral, известный своими открытыми языковыми моделями, сделал серьезную заявку на лидерство в мультимодальном ИИ. Их новая модель Pixtral Large с 124 миллиардами параметров объединяет работу с текстом и изображениями на уровне ведущих закрытых систем.
Модель обрабатывает до 30 изображений за раз или 300-страничные документы. На ее основе обновлен фирменный чат-бот Le Chat, получивший функции веб-поиска с цитированием, анализа документов и генерации изображений, что приближает его к возможностям ChatGPT. Уже на Hugging Face.
Свежие инструменты
Для работы с контентом
Learn About: Google представила инструмент для самообучения, который превращает любую тему в интерактивный учебник. Введите интересующий вопрос — получите структурированное объяснение с возможностью углубиться в детали одним кликом и проверить понимание через мини-тесты.
Suno V4 делает создание музыки более доступным. Новая версия не просто генерирует мелодии, но создает полноценные композиции с динамической структурой, а помощник ReMi помогает с текстами песен. Качество звука заметно улучшилось по сравнению с предыдущими версиями.
Для разработчиков
Microsoft OmniParser — это открытый фреймворк для создания компьютерных ассистентов. Он анализирует интерфейсы приложений и преобразует их в понятные для ИИ структуры, позволяя моделям эффективно управлять любыми программами.
Microsoft Magnetic-One объединяет несколько ИИ-агентов в единую систему под управлением центрального оркестратора. Каждый агент специализируется на своей задаче: один ищет информацию в интернете, другой работает с файлами, третий пишет код — и все вместе они решают сложные многоступенчатые задачи.
Иллюстрация того, как система ИИ-агентов выполняет задание (источник изображения)
Anthropic представила инструмент для автоматизации промпт-инжиниринга. Prompt Improver анализирует промпты и предлагает улучшения на основе лучших практик, что особенно полезно при переносе промптов между разными моделями. Тесты показывают рост точности на 30%. Доступен в консоли.
Для удобства
Listy решает проблему разрозненных закладок — теперь любимые места из Google Maps, статьи из Pocket, фильмы из IMDb и книги из Goodreads собраны в одном месте с удобным поиском и организацией.
Feta позволяет извлечь больше пользы из рабочих созвонов. Автоматически документирует обсуждения, выделяет ключевые решения и следит за выполнением задач.
Buzzabout анализирует социальные сети и форумы, чтобы найти мнения о вашем продукте. Помогает понять потребности пользователей и корректировать стратегию развития на основе реальных данных.
Superchat объединяет бизнес-аккаунты WhatsApp и Instagram в единый интерфейс, упрощая работу с клиентами и увеличивая конверсию за счет быстрых ответов и автоматизации.
Blitz — помощник по управлению временем. Встроенный таймер Pomodoro помогает сохранять фокус, а умная категоризация задач — расставлять приоритеты.
Layer визуализирует бизнес-цели в виде интеллект-карт, помогая командам лучше понимать взаимосвязи между задачами и отслеживать прогресс по целевым показателям.
Исследования на почитать
Boltz-1: MIT достигает точности AlphaFold3 в открытом доступе
О чем: Исследователи MIT создали открытую модель для предсказания структуры биомолекул, не уступающую AlphaFold3. Новые алгоритмы MSA-паринга и унифицированный подход к кропингу позволили снизить вычислительные затраты, сделав продвинутое биомолекулярное моделирование более доступным.
Common Corpus: крупнейший многоязычный датасет для обучения
О чем: Pleias выпустила открытый датасет с более чем 2 триллионами токенов контента на разных языках. Главная фишка — весь контент лицензирован, а качество данных тщательно проверено.
AnimateAnything: стабильная генерация анимации
О чем: Китайские ученые представили новый метод генерации видео, использующий мультимасштабную сеть контроля признаков и стабилизацию на основе частот для создания точной и стабильной анимации без мерцаний.
LLaVA-o1: пошаговые рассуждения для мультимодальных моделей
О чем: Новая версия Vision-Language модели улучшает точность в задачах на рассуждение за счет автономного многоступенчатого анализа и нового метода масштабирования во время инференса.
Top-nσ: эффективная фильтрация токенов
О чем: Новый метод сэмплинга для языковых моделей улучшает качество рассуждений за счет статистической фильтрации токенов на уровне пре-софтмакс логитов, сохраняя стабильность при разных температурах.
Generative World Explorer: мысленные исследования для ИИ
О чем: Framework Genex позволяет агентам мысленно исследовать масштабные 3D-среды и обновлять свои представления на основе воображаемых наблюдений. Это улучшает принятие решений без необходимости постоянного физического исследования пространства.
Статистический подход к оценке моделей
О чем: Исследователи предложили новые статистические рекомендации для оценки ИИ-моделей. Методология включает использование центральной предельной теоремы, кластеризацию стандартных ошибок и анализ парных различий для более надежного сравнения моделей.
Роль «конституций» в обучении с ИИ-фидбеком
О чем: Детальные «конституции» улучшают качество эмоционального фидбека в ИИ-моделях, но не влияют на практические навыки, такие как сбор информации в медицинских интервью. Интересный пример того, как улучшение в одной области не гарантирует прогресса в другой.
Claude 3.5 осваивает компьютер
О чем: Первое серьезное исследование способностей Claude 3.5 работать с графическим интерфейсом показывает многообещающие результаты. Модель уже неплохо справляется с базовыми задачами, хотя до полной автономности еще далеко.
Заключение
На этом мы завершаем наш дайджест. Ноябрь выдался насыщенным: новые модели с впечатляющими возможностями, прорывные исследования и целый арсенал инструментов для работы с ИИ. Похоже, темпы развития отрасли только ускоряются, и то, что вчера казалось прорывом, сегодня становится стандартом.
Если вам понравился дайджест, поделитесь в комментариях, что показалось наиболее интересным и перспективным. Будем рады обсудить!
edyapd
Странно, что в статье не обмолвились о ещё одной модели от Qwen - QwQ-32B-Preview.
На данный момент, по моему мнению, это лучшая модель для локального использования. Квантованная q4 даже помещается в 24ГБ видеопамяти. Единственный, толстый минус, она часто срывается в китайский и английский языки, если задавать вопросы на русском.
Gemini-Exp-1121 нельзя сказать, что она вырвалась вперёд. Я бы сказал, что с GPT4o они идут ноздря к ноздре. На 02.12.24 GPT4o снова обошёл Gemini на несколько балов.