Первый месяц 2025 года задал высокую планку для развития ИИ. DeepSeek выпустила открытую модель уровня о-1, которая переполошила весь интернет и обрушила акции гигантов индустрии. Американские коллеги ответили настоящим шквалом релизов: OpenAI анонсировала сразу три значимых обновления, а NVIDIA презентовала новую линейку RTX и бюджетный суперкомпьютер для работы с ИИ-моделями.
Пока все отходили от новогодних праздников, индустрия ИИ продолжала развиваться с космической скоростью. Разбираем главные события января: новые модели, неожиданные исследования и амбициозные проекты.
Оглавление
Perplexity расширяет границы: новый API и ассистент для Android
Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты
OpenAI оказались причастны к созданию бенчмарка FrontierMath
Meta отказывается от фактчекинга в пользу «народной модерации»
Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google Deepmind
Новые модели
DeepSeek vs OpenAI: китайская компания выпустила открытую модель уровня o1
В мире ИИ новая заявка на лидерство: китайская компания DeepSeek представила модель, способную на равных конкурировать с о1. И не просто конкурировать — R1 с 685 миллиардами параметров уже вошла в топ арены LMSYS, прописавшись по соседству с флагманом от OpenAI в категориях Hard Prompts, Coding, Math и Creative Writing.
Что известно про модель?
R1 построена на базе DeepSeek-V3-Base и содержит 685 миллиардов параметров. Самое интересное в ней даже не результаты тестов, а то, как команде DeepSeek удалось их достичь. Главная инновация — применение чистого обучения с подкреплением без предварительного файнтюнинга на размеченных данных. Исследователи использовали алгоритм GRPO (Group Relative Policy Optimization), который, в отличие от классического PPO, не требует отдельной модели-критика такого же размера, а оценивает базовую линию на основе групповых показателей.
В процессе обучения модель самостоятельно развила несколько интересных паттернов рассуждения. Например, она научилась помещать процесс размышлений внутри специальных тегов <think>
и </think>
, а также проводить самопроверку решений.
Показатели модели впечатляют: на математическом бенчмарке MATH-500 она достигает точности 97.3%, на AIME 2024 — 79.8%, что превосходит показатели o1. В области программирования R1 достигла рейтинга 2029 на Codeforces, обойдя 96.3% участников соревнований. При этом модель демонстрирует сильные результаты и в других областях: 90.8% на MMLU, 84% на MMLU-Pro и 71.5% на GPQA Diamond.
Главный сюрприз — цены. R1 доступна через API по $0.55 за миллион токенов на входе — это в 20 раз дешевле, чем у OpenAI. Плюс есть бесплатный чат с лимитом в 50 сообщений в день.
Вместе с основной моделью выпустили шесть дистиллированных версий от 1.5B до 70B параметров, и тут тоже есть чему удивиться: даже самая маленькая модель на 1.5B обходит Claude Sonnet по некоторым метрикам.
Мультимодальная Janus-Pro
Помимо R1, DeepSeek также выкатили Pro-версию своей мультимодальной модели Janus. Однако из-за шумихи вокруг R1 это новшество как-то ушло на второй план. Исправим несправедливость.
Janus-Pro — усовершенствованная версия уже существующей мультимодальной модели Janus. Главная фишка — раздельное кодирование для задач image2text и text2image. В отличие от предшественника, где использовался единый энкодер, Janus-Pro применяет SigLIP для понимания изображений и VQ Tokenizer для их генерации. Каждый компонент дополнен специальным адаптером, который преобразует визуальные признаки в формат, понятный языковой модели.
Результаты говорят сами за себя: на бенчмарке MMBench версия с 7B параметров достигает 79.2 баллов, оставляя позади TokenFlow (68.9) и MetaMorph (75.2). В задачах генерации изображений модель набрала 84.2% на GenEval, превзойдя как DALL-E 3 (67.0%), так и SD3 Medium (74.7%). Интересно, что даже младшая версия с 1B параметров показывает конкурентоспособные результаты. Обе модели уже выложены в открытый доступ на Hugging Face.
Утечка данных и теории заговора
Естественно, такой внезапный успех DeepSeek породил немало вопросов и попал под пристальное внимание конкурентов.
Известный ИИ-инвестор Дэвид О. Сакс высказал предположение, что R1 — это дистилляция о1, а Microsoft уже начала расследование возможной «кражи» данных OpenAI. Есть и другая гипотеза от CEO ScaleAI Александра Ванга: за успехом стоит серьезный вычислительный кластер из 50 тысяч NVIDIA H100, который компания не афиширует из-за экспортных ограничений США. Илон Маск согласен с этим предположением.
Следующий удар нанесла команда Wiz Research, обнаружившая публично доступную базу данных ClickHouse на серверах DeepSeek. База, расположенная на oauth2callback.deepseek.com:9000 и dev.deepseek.com:9000, содержала более миллиона записей с историей чатов, секретными ключами и внутренними данными компании. Самое неприятное — база была доступна без какой-либо аутентификации и позволяла выполнять произвольные SQL-запросы через веб-интерфейс.
DeepSeek пока никак не комментируют ни одну из ситуаций, но думается, что новые инциденты не заставят себя ждать.
А что вы думаете о прорыве DeepSeek и его «закулисье»? Поделитесь своим мнением в комментариях!
Ответка от OpenAI
Лидеры индустрии стараются не ударить в грязь лицом на фоне своих китайских коллег и радуют пользователей тремя мощными релизами: Operator, Tasks и o3-mini. Рассказываем о каждом из них.
Operator: первый автономный агент от OpenAI
OpenAI наконец представила своего долгожданного ИИ-агента Operator — и это действительно впечатляет. В основе агента лежит модель Computer-Using Agent (CUA), построенная на GPT-4o, которая умеет самостоятельно управлять браузером: кликать кнопки, заполнять формы и навигировать по меню. Все действия выполняются в отдельном защищенном окне браузера прямо внутри чата.
С помощью Operator можно автоматизировать множество задач: от заказа доставки еды до планирования путешествий. При этом OpenAI уделила отдельное внимание вопросам безопасности: для операций с конфиденциальными данными (например, ввод данных банковской карты или доступ к почте) требуется подтверждение пользователя. В системе также предусмотрен мониторинг подозрительной активности, который автоматически останавливает исполнение задач при обнаружении потенциальных угроз.
Пока Operator доступен только американским пользователям с подпиской Pro ($200 в месяц), но OpenAI обещает постепенно расширить доступ на другие страны и тарифы. Правда, как отметил Сэм Альтман во время презентации, для Европы это «займет некоторое время». Про РФ почему-то ничего не сказал.
Tasks: ChatGPT выходит за рамки диалога
В ChatGPT появилась новая функция Tasks — первый шаг к превращению чат-бота в полноценного цифрового ассистента. Теперь можно планировать задачи на определенное время и создавать регулярные напоминания, например «присылай прогноз погоды каждое утро в 8» или «напомни про встречу через час».
Особенность Tasks в том, что бот выполняет задания, даже когда пользователь оффлайн. Система поддерживает до 10 активных задач одновременно и может сама предлагать их создание, опираясь на контекст разговора. Например, если вы не закончили писать код, ChatGPT заботливо спросит, не хотите ли запланировать возвращение к задаче позже.
Для использования Tasks нужно выбрать опцию «4o with scheduled tasks» в селекторе моделей. Сейчас функция доступна только для подписчиков Plus, Team и Pro. OpenAI планирует интегрировать Tasks с другими экспериментальными инструментами, включая Operator и систему Caterpillar для продвинутой обработки информации.
o3-mini: новая и более доступная
В OpenAI поднапряглись из-за шумихи с DeepSeek и оперативно выпустили o3-mini — новую модель в линейке reasoning, которая достигает уровня o1 в задачах STEM, но работает быстрее и требует меньше ресурсов. Это первая из мини-версий, поддерживающая Function Calling и Structured Outputs, но главная ее инновация — три уровня «глубины размышлений», которые позволяют оптимизировать баланс между скоростью и точностью ответов.
И действительно, маленькая, да удаленькая: версия с high reasoning достигает точности 87.3% на AIME 2024, 77% на научных вопросах уровня PhD (GPQA Diamond) и решает 32% задач на FrontierMath с первой попытки. В области программирования модель получила рейтинг 2073 Elo на Codeforces. При этом ответы генерируются на 24% быстрее предшественника: в среднем 7.7 секунд против 10.16 у o1-mini.
Самое приятное — o3-mini стала первой reasoning-моделью, доступной бесплатным пользователям ChatGPT. Для платных подписчиков увеличен лимит с 50 до 150 сообщений в день, а Pro-пользователи получили неограниченный доступ к версиям medium и high reasoning.
Qwen 2.5: миллионный контекст и новый флагман
Еще один участник ИИ-гонки от Китая, команда Qwen от Alibaba Group, продолжает удивлять темпами: за два дня они выпустили сразу две значимые модели. Первая — Qwen 2.5 с рекордным контекстным окном в 1 миллион токенов. Модель доступна в открытом доступе на Hugging Face в версиях 7B и 14B параметров.
Такого впечатляющего размера контекста удалось достичь благодаря использованию memory layers — специальных слоев, заменяющих классические feed-forward компоненты. В этой архитектуре ключи и значения механизма внимания становятся обучаемыми связками, что позволяет модели выбирать только наиболее релевантные пары вместо поиска по всему пулу key-values. Результат — более эффективные вычисления и улучшенная долгосрочная память.
Следом команда представила Queen 2.5-Max — масштабную Mixture-of-Expert модель, предобученную на 20 триллионах токенов с последующим файнтюнингом и RLHF. На бенчмарках она достигает уровня DeepSeek-v3 и GPT-4o, а на HumanEval показывает внушительные 73%. Обе модели уже доступны для бесплатного тестирования через API и веб-интерфейс.
Perplexity расширяет границы: новый API и ассистент для Android
Perplexity AI уже давно известны своим комбо ИИ и поисковика, и вот наконец они представили сразу два значимых отдельных продукта: Sonar Pro API для разработчиков и нового AI-ассистента для Android, способного управлять приложениями.
Sonar Pro API позволяет разработчикам встраивать в свои приложения инструменты генеративного поиска с поддержкой цитирования источников. В отличие от большинства современных решений, которые ограничены данными обучения, Sonar Pro подключается к интернету в реальном времени, что обеспечивает актуальность и достоверность ответов. В рамках API разработчики получили доступ к расширенным функциям вроде JSON mode и возможности фильтрации поисковых доменов.
Параллельно компания выпустила Android-ассистента, способного управлять приложениями и выполнять сложные задачи: от бронирования столиков через OpenTable до вызова Uber. Система поддерживает как голосовые команды, так и визуальный ввод через камеру. По словам CEO Аравинда Сриниваса, это знаменует переход Perplexity от простой поисковой системы к полноценному интегрированному ассистенту. Интересно, что релиз состоялся сразу после анонса аналогичных возможностей в Google Gemini.
Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты
Tencent представила новую версию своей системы для создания трехмерных моделей из обычных изображений. Hunyuan3D 2.0 использует двухкомпонентную архитектуру: Hunyuan3D-DiT отвечает за создание базовой геометрии объектов, а Hunyuan3D-Paint накладывает реалистичные текстуры с учетом поверхностных углов и позиций.
Технически система работает через диффузионный трансформер, который сначала анализирует и представляет основные формы в сжатом виде, а затем генерирует 3D-модель, максимально соответствующую входному изображению. Особое внимание уделено текстурированию: система удаляет эффекты освещения из оригинального изображения, что позволяет текстурам корректно отображаться при любом освещении. Попробовать Hunyuan3D 2.0 можно уже сейчас через веб-интерфейс Hunyuan3D-Studio, правда, для доступа потребуется авторизация через WeChat, QQ или китайский номер телефона.
Новости от гигантов индустрии
Project Stargate: США начинают новую технологическую гонку
Свой второй срок Дональд Трамп решил начать с изменения расстановки сил в мире ИИ. Он анонсировал запуск Project Stargate — масштабной частной инициативы по развитию ИИ-инфраструктуры в США. Стартовые инвестиции составят $100 млрд, а к 2029 году общий объем вложений планируется довести до $500 млрд. Для сравнения: это в 10 раз больше последнего инвестраунда OpenAI и в 7 раз превышает совокупные инвестиции во все европейские ИИ-стартапы за 2024 год.
За реализацию отвечает необычный альянс технологических компаний. OpenAI берет на себя операционное управление и технологическую часть, SoftBank выступает главным инвестором, а Oracle, Arm, Microsoft и NVIDIA обеспечивают техническую экспертизу. Первым делом консорциум займется строительством сети датацентров, начиная с Техаса. Интересно, что проект полностью частный — государственные деньги в нем не участвуют.
Stargate серьезно меняет расклад в индустрии. OpenAI, получив доступ к собственной инфраструктуре, больше не зависит от вычислительных мощностей Microsoft. При этом сотрудничество с Azure продолжится, но теперь на более равных условиях. Помимо технологического лидерства, проект должен дать мощный экономический эффект: создание сотен тысяч рабочих мест, развитие смежных отраслей и реиндустриализация отдельных регионов США.
В ответ на американскую инициативу правительство Китая объявило о выделении 1 триллиона юаней (около $137 млрд) на развитие искусственного интеллекта. В отличие от частного Stargate, китайский проект полностью государственный: субсидии получат пять ключевых вендоров, включая DeepSeek. Хотя сумма в три раза меньше американской, массовое государственное финансирование может дать более быстрый эффект.
CES 2025: яркие новинки от NVIDIA
В Лас-Вегасе завершилась главная технологическая выставка года, и NVIDIA, похоже, решила устроить настоящую революцию в мире персонального ИИ. Джен-Сун Хуанг представил целую экосистему продуктов — от домашних суперкомпьютеров до специализированных моделей для роботов. Разбираем главные анонсы.
RTX 50: новое поколение видеокарт
NVIDIA начала презентацию с главного — новой линейки RTX 50 на архитектуре Blackwell. Флагманская RTX 5090 впечатляет: 92 миллиарда транзисторов, 3,352 триллиона AI-операций в секунду (TOPS) и пропускная способность памяти 1.8 ТБ/с.
Линейка включает:
RTX 5090 — флагман для профессионалов;
RTX 5080;
RTX 5070 Ti;
RTX 5070 — производительность на уровне прошлого топа 4090.
Особый акцент сделан на поддержке NIM (NVIDIA AI Microservices) — это позволит запускать локальные LLM даже на домашних компьютерах.
Project DIGITS: суперкомпьютер размером с Mac mini
Одна из главных сенсаций выставки — Project DIGITS, персональный ИИ-суперкомпьютер по цене игрового ноутбука.
За $3000 вы получаете устройство размером с Mac mini, способное запускать языковые модели до 200B параметров без подключения к облаку. В основе — новый чип GB10 Grace Blackwell Superchip, обеспечивающий производительность в 1 петафлопс. А если объединить два таких устройства, можно работать с моделями до 405B параметров — это уже уровень серьезных датацентров.
Cosmos: фундамент для роботов будущего
NVIDIA выходит на рынок world models с открытой платформой Cosmos World Foundation Models. Это набор предобученных моделей для роботов, которые уже используются Toyota и Uber в разработке беспилотников. Главная фишка — «колесо данных»: система превращает тысячи реальных поездок в миллиарды виртуальных симуляций для тренировки ИИ.
«ChatGPT-момент для робототехники уже на подходе», — заявил Джен-Сун Хуанг во время презентации. И судя по тому, что платформа уже доступна на GitHub, NVIDIA намерена повысить доступность инструментов для разработки роботов.
AI Blueprints: конструктор агентов
Компания также представила AI Blueprints — шаблоны для разработчиков, упрощающие разработку ИИ-агентов. Это готовые фреймворки с предустановленными инструментами: от микросервисов NIM до фреймворка NeMo. Особое внимание уделили различиям между обычными ИИ-агентами и агентным ИИ:
Обычные агенты: ограниченная автономность, заранее прописанные инструкции;
Агентный ИИ: высокая автономность, способность к обучению и адаптации.
Похоже, NVIDIA всерьез взялась за демократизацию ИИ-технологий и их доступность в частном использовании.
OpenAI оказались причастны к созданию бенчмарка FrontierMath
Неожиданный поворот в истории с нашумевшим математическим бенчмарком FrontierMath. Как выяснилось, OpenAI не просто тестировали на нем свою модель o3, но и спонсировали его создание, имея доступ к большинству задач и решений.
EpochAI, разработчики бенчмарка, долгое время скрывали этот факт даже от собственной команды. Шесть математиков, участвовавших в проекте, заявили, что не знали об эксклюзивном доступе OpenAI к тестам и не стали бы участвовать в разработке, если бы владели этой информацией. И это при том, что именно результаты на FrontierMath (25% против обычных 2% у других моделей) стали одним из главных козырей при презентации o3.
EpochAI признали ошибку, объяснив ее контрактными обязательствами перед OpenAI. По их словам, существует «устное соглашение» о неиспользовании задач для обучения моделей. Однако ведущий математик проекта Эллиот Глейзер подтвердил, что они до сих пор не смогли независимо верифицировать заявленные OpenAI результаты.
Meta отказывается от фактчекинга в пользу «народной модерации»
Марк Цукерберг объявил о радикальных изменениях в политике модерации контента Meta. Компания откажется от услуг сторонних фактчекеров в пользу системы «community notes», похожей на ту, что используется в X (бывший Twitter). Изменения коснутся всех платформ компании — Facebook, Instagram, WhatsApp и Threads.
По словам Цукерберга, это возвращение к «корням свободы самовыражения». Он признал, что существующая система модерации делает слишком много ошибок: даже если блокируется всего 1% постов, это затрагивает миллионы пользователей. Кроме того, компания переносит команды модерации из Калифорнии в Техас, чтобы снизить «предвзятость» в принятии решений.
Многие видят в этом решении политический подтекст — попытку наладить отношения с новой администрацией Трампа и республиканским Конгрессом. Эксперты опасаются, что отказ от профессионального фактчекинга может привести к новой волне дезинформации, особенно в преддверии выборов. Для бизнес-аккаунтов это означает как новые возможности в создании контента, так и риски столкнуться с неконтролируемой критикой и теориями заговора.
Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google DeepMind
Создатель Keras и один из ведущих исследователей Google DeepMind Франсуа Шолле объявил о запуске собственной лаборатории Ndea. К проекту присоединился его бывший коллега по Google Ники Кнуп, и, похоже, они замахнулись на что-то действительно масштабное.
Название Ndea (читается как «идея» с буквой «n») отсылает к древнегреческим концепциям ennoia (интуитивное понимание) и dianoia (логическое мышление). Главная цель — объединить глубокое обучение с программным синтезом для создания AGI. Но самое интересное не это: команда планирует построить своего рода «фабрику научного прогресса», способную генерировать и коммерциализировать новые идеи в промышленных масштабах.
В фокусе внимания не только очевидные направления вроде беспилотного транспорта или разработки лекарств, но и потенциальные прорывы в областях, которые мы пока даже не можем себе представить. Учитывая репутацию Шолле как создателя Keras и бенчмарка ARC AGI, а также его вклад в развитие глубокого обучения, за этим проектом определенно стоит следить.
Новинки и открытия
Postman и Zapier запускают конструкторы ИИ-агентов
2025 потихоньку начинает подтверждать свое звание года ИИ-агентов: сразу две популярные платформы для автоматизации представили свои no-code решения.
Postman запустил визуальный конструктор агентных воркфлоу, делая ставку на свою обширную экспертизу в работе с API — ключевым компонентом агентной архитектуры.
Следом свой конструктор анонсировал Zapier, предложив доступ к более чем 7000 интеграций с популярными сервисами вроде Notion, Jira и Google Docs. 2025 год явно станет годом демократизации агентных технологий: теперь создавать ИИ-агентов смогут не только инженеры, но и обычные пользователи.
Anthropic рассказали о проблемах и будущем alignment
Команда Anthropic выпустила интересное видео об элайменте с участием четырех ведущих разработчиков, включая Яна Лейке, известного по работе в OpenAI. Главный вывод — существующие подходы вроде RLHF и constitutional AI достигли своего предела и требуют переосмысления.
Ключевая проблема — масштабирование. Текущие методы работают для предсказуемых задач, но что делать, когда ИИ начнет решать проблемы, которые человек не может напрямую проверить? Отдельный вызов — ризонинг: сейчас модели «думают» на английском, что позволяет анализировать их рассуждения, но это может измениться.
Исследователи видят два перспективных направления: интерпретация фичей для контроля «честности» моделей и супер-элаймент для работы со сложными автономными системами. В Anthropic уже экспериментируют с делегированием элаймента другим ИИ-моделям и создали специальные red-blue команды: одни разрабатывают «злые» модели, другие учатся их исправлять.
Hugging Face запускает бесплатный курс по созданию ИИ-агентов
Hugging Face представили новый бесплатный сертифицированный курс, посвященный разработке и развертыванию ИИ-агентов. Программа охватывает как теоретические основы (как агенты воспринимают окружение, рассуждают и принимают решения), так и практическое применение популярных фреймворков вроде LangChain и LlamaIndex.
Особый акцент сделан на реальных примерах использования: от автоматизации SQL-запросов до генерации кода и анализа документов. По завершении курса участники получают сертификат, подтверждающий их навыки в создании агентных систем. Записаться на курс может любой желающий — специальных технических знаний не требуется.
Трансформер научился предсказывать активность мозга
Команда Университета Сиднея представила впечатляющую разработку: трансформер, способный предсказывать состояния мозга на 5 секунд вперед на основе всего 21 секунды сканирования. В основе — архитектура с 8 головами внимания, которая анализирует активность 379 областей мозга.
На тестах модель показывает феноменальные результаты: MSE 0.0013 на одной точке предсказания и корреляция >0.85 для последовательности из семи состояний (5.04 секунды). С увеличением горизонта предсказаний точность модели снижается, но в пределах первых пяти секунд прогнозы остаются исключительно точными.
Самое интересное, что это первый подход, который действительно имеет шанс на практическое применение. В мире много пациентов, которые не могут проходить длительные сеансы МРТ, и возможность получать надежные данные с коротких сканирований может стать для них настоящим прорывом.
Исследование показало эффективность ИИ в обнаружении рака груди
Масштабное исследование в Германии подтвердило преимущества использования искусственного интеллекта при скрининге рака молочной железы. Исследователи проанализировали данные 461 818 женщин, часть из которых проходила обследование с применением ИИ, а часть — по стандартной методике с двумя радиологами.
В группе с ИИ выявляемость оказалась на 17.6% выше — 6.70 случаев на 1000 обследований против 5.70 при стандартном подходе. Важно, что количество ложных срабатываний осталось на том же уровне. Система не только помечает «нормальные» снимки, но и выдает предупреждения, если радиолог пропускает подозрительный участок: благодаря этой функции было выявлено 204 случая рака.
Особенно актуально это для стран вроде Великобритании, где наблюдается 29%-й дефицит радиологов. Правда, эксперты отмечают необходимость долгосрочных исследований: увеличение выявляемости медленно растущих форм рака может привести к избыточной диагностике.
Свежие инструменты
Для работы с данными
Gitingest — конвертация Git-репозиториев в текстовый формат для обучения LLM.
LOTUS — опенсорсный семантический движок для быстрой обработки данных с помощью LLM.
Trafilatura — Python-пакет для сбора и структурирования веб-контента в различные форматы.
Monkt — конвертация PDF, DOCX, PPTX и других форматов в JSON для обучения ИИ.
Bruin — инструмент для data pipeline, объединяющий прием данных, SQL/Python трансформации и контроль качества.
SemHash — быстрый и точный инструмент для удаления дубликатов из текстовых датасетов.
Для разработки
Zasper — опенсорсная IDE для эффективной работы с Jupyter Notebooks.
jupytext — конвертация Jupyter Notebooks в Markdown, Julia, Python или R-скрипты.
ipychat — ИИ-расширение для IPython, помогающее быстрее писать и отлаживать код.
Curator — инструмент для создания пайплайнов синтетических данных.
TorchGeo — наборы данных и модели для работы с геопространственными данными от Microsoft.
Для обучения и продуктивности
EasyLang AI — персонализированное изучение языков с ИИ-генерацией упражнений.
Lingocat — практика языков с ИИ-репетитором.
Reset — ИИ-помощник для работы с тревожными мыслями.
Для автоматизации
Add to Sheets — Chrome-расширение для сохранения контента в Google Sheets.
Lecca — создание команд ИИ-агентов для выполнения рабочих процессов.
TestSprite — end-to-end QA продукт для автоматизации тестирования.
Norm — ИИ-агенты для проверки соответствия продукта нормативным требованиям.
Исследования на почитать
R3GAN: новая жизнь классической архитектуры
О чем: исследователи предложили новый подход к GAN с теоретически доказанной сходимостью, превосходящий StyleGAN2 и конкурирующий с диффузионными моделями при меньших вычислительных затратах.
Titan: трансформер с долгой памятью
О чем: Google представили архитектуру, решающую проблему «забывчивости» трансформеров через комбинацию краткосрочной и долгосрочной памяти. Модель масштабируется до 2+ миллионов токенов контекста без потери точности.
Go-with-the-Flow: плавная генерация видео
О чем: Netflix разработали новый подход к генерации видео, добавляющий в диффузионную модель оптический поток движения. Это позволяет создавать более естественные движения без мерцания текстур при минимальном увеличении вычислительных затрат.
Признаки самосознания в LLM
О чем: исследователи из Truthful AI обнаружили, что языковые модели способны формировать устойчивое «представление о себе» на основе обучающих данных и даже самостоятельно выявлять внедренные бэкдоры.
Агенты глазами Google
О чем: Google выпустили подробный whitepaper об архитектуре ИИ-агентов, описывающий их ключевые компоненты, типы инструментов и методы обучения, с практическими примерами реализации на платформе Vertex AI.
Квантовое машинное обучение для больших данных
О чем: исследователи показали, как квантовые вычисления могут радикально ускорить обработку масштабных датасетов, открывая новые возможности для машинного обучения.
ИИ в здравоохранении
О чем: обзор показывает, что, несмотря на впечатляющие результаты ИИ в здравоохранении, нужны дополнительные исследования для безопасного внедрения в клиническую практику.
Конвергенция ИИ и нейронауки
О чем: исследование показывает, как пересечение изучения человеческого познания и разработки ИИ-систем ускоряет прогресс в обеих областях.
Эксперимент Delphi: моральные суждения машин
О чем: исследователи разработали подход, позволяющий моделям делать более обоснованные моральные суждения и лучше обобщать этические принципы, чем стандартные LLM.
SearchSYS для тестирования ARM
О чем: новый подход к тестированию симуляторов цифровых схем, фокусирующийся на симуляции ARM ISA с использованием комбинации поиска и LLM.
Систематический обзор генеративного ИИ
О чем: исследователи проанализировали последние прорывы в генеративном ИИ и выделили ключевые тренды — от специализированных моделей до новых методов обучения.
Agent-R: самообучение через рефлексию
О чем: исследователи предложили фреймворк для обучения ИИ-агентов исправлять свои ошибки на лету. Вместо традиционной системы наград используется MCTS для построения правильных траекторий из ошибочных, что улучшает результаты на 5.59%.
GuardReasoner: разумные ограничения для LLM
О чем: новый подход к безопасности языковых моделей через обучение рассуждению. 8B-версия превзошла GPT-4o+CoT на 5.74% и LLaMA Guard 3 на 20.84% по F1-score, используя датасет из 127K примеров с подробными цепочками рассуждений.
SFT vs RL: кто лучше обобщает
О чем: сравнительное исследование показало, что RL лучше обобщает новые сценарии, в то время как SFT склонен к запоминанию. При этом SFT остается необходимым для стабилизации выходного формата перед RL-обучением.
Видеогенерация с человеческой обратной связью
О чем: исследователи разработали систему улучшения видеогенерации через human feedback. Ключевые компоненты: VideoReward для многомерной оценки качества и три новых алгоритма для flow-based моделей, включая Flow-DPO и Flow-NRG.
Заключение
Темп развития ИИ-индустрии ускоряется с бешеной силой. Особенно впечатляют масштабы изменений — миллиардные инвестиции, гонка за лидерство уже между странами, а не единичными корпорациями. И это год только начался.
Мы с нетерпением ждем дальнейших событий и обновлений, а на сегодня у нас все! Делитесь в комментариях, что в январе впечатлило вас большего всего.