DeepSeek штурмует рейтинги, OpenAI запускает первого автономного агента: главные события января в сфере ИИ / forpes.ru

Главная
DeepSeek штурмует рейтинги, OpenAI запускает первого автономного агента: главные события января в сфере ИИ

DeepSeek штурмует рейтинги, OpenAI запускает первого автономного агента: главные события января в сфере ИИ +21

05.02.2025 09:07

full_moon 1 3900 Источник

Первый месяц 2025 года задал высокую планку для развития ИИ. DeepSeek выпустила открытую модель уровня о-1, которая переполошила весь интернет и обрушила акции гигантов индустрии. Американские коллеги ответили настоящим шквалом релизов: OpenAI анонсировала сразу три значимых обновления, а NVIDIA презентовала новую линейку RTX и бюджетный суперкомпьютер для работы с ИИ-моделями.

Пока все отходили от новогодних праздников, индустрия ИИ продолжала развиваться с космической скоростью. Разбираем главные события января: новые модели, неожиданные исследования и амбициозные проекты.

Оглавление

Новые модели

DeepSeek выпустила открытую модель уровня o1
Ответка от OpenAI
Qwen 2.5: миллионный контекст и новый флагман
Perplexity расширяет границы: новый API и ассистент для Android
Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты

Новости от гигантов индустрии

Project Stargate: США начинают новую технологическую гонку
CES 2025: яркие новинки от NVIDIA
OpenAI оказались причастны к созданию бенчмарка FrontierMath
Meta отказывается от фактчекинга в пользу «народной модерации»
Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google Deepmind

Новинки и открытия

Postman и Zapier запускают конструкторы ИИ-агентов
Anthropic рассказали о проблемах и будущем alignment
Hugging Face запускает бесплатный курс по созданию ИИ-агентов
Трансформер научился предсказывать активность мозга
Исследование показало эффективность ИИ в обнаружении рака груди

Свежие инструменты

Для работы с данными
Для разработки
Для обучения и продуктивности
Для автоматизации

Исследования на почитать

Заключение

Новые модели

DeepSeek vs OpenAI: китайская компания выпустила открытую модель уровня o1

В мире ИИ новая заявка на лидерство: китайская компания DeepSeek представила модель, способную на равных конкурировать с о1. И не просто конкурировать — R1 с 685 миллиардами параметров уже вошла в топ арены LMSYS, прописавшись по соседству с флагманом от OpenAI в категориях Hard Prompts, Coding, Math и Creative Writing.

Что известно про модель?

R1 построена на базе DeepSeek-V3-Base и содержит 685 миллиардов параметров. Самое интересное в ней даже не результаты тестов, а то, как команде DeepSeek удалось их достичь. Главная инновация — применение чистого обучения с подкреплением без предварительного файнтюнинга на размеченных данных. Исследователи использовали алгоритм GRPO (Group Relative Policy Optimization), который, в отличие от классического PPO, не требует отдельной модели-критика такого же размера, а оценивает базовую линию на основе групповых показателей.

В процессе обучения модель самостоятельно развила несколько интересных паттернов рассуждения. Например, она научилась помещать процесс размышлений внутри специальных тегов <think> и </think>, а также проводить самопроверку решений.

Показатели модели впечатляют: на математическом бенчмарке MATH-500 она достигает точности 97.3%, на AIME 2024 — 79.8%, что превосходит показатели o1. В области программирования R1 достигла рейтинга 2029 на Codeforces, обойдя 96.3% участников соревнований. При этом модель демонстрирует сильные результаты и в других областях: 90.8% на MMLU, 84% на MMLU-Pro и 71.5% на GPQA Diamond.

Результаты бенчмарков (источник изображения) — *Результаты бенчмарков* *(источник изображения)*

Главный сюрприз — цены. R1 доступна через API по $0.55 за миллион токенов на входе — это в 20 раз дешевле, чем у OpenAI. Плюс есть бесплатный чат с лимитом в 50 сообщений в день.

Вместе с основной моделью выпустили шесть дистиллированных версий от 1.5B до 70B параметров, и тут тоже есть чему удивиться: даже самая маленькая модель на 1.5B обходит Claude Sonnet по некоторым метрикам.

Мультимодальная Janus-Pro

Помимо R1, DeepSeek также выкатили Pro-версию своей мультимодальной модели Janus. Однако из-за шумихи вокруг R1 это новшество как-то ушло на второй план. Исправим несправедливость.

Janus-Pro — усовершенствованная версия уже существующей мультимодальной модели Janus. Главная фишка — раздельное кодирование для задач image2text и text2image. В отличие от предшественника, где использовался единый энкодер, Janus-Pro применяет SigLIP для понимания изображений и VQ Tokenizer для их генерации. Каждый компонент дополнен специальным адаптером, который преобразует визуальные признаки в формат, понятный языковой модели.

Janus Pro и Janus в сравнении (источник изображения) — *Janus Pro и Janus в сравнении* *(источник изображения)*

Результаты говорят сами за себя: на бенчмарке MMBench версия с 7B параметров достигает 79.2 баллов, оставляя позади TokenFlow (68.9) и MetaMorph (75.2). В задачах генерации изображений модель набрала 84.2% на GenEval, превзойдя как DALL-E 3 (67.0%), так и SD3 Medium (74.7%). Интересно, что даже младшая версия с 1B параметров показывает конкурентоспособные результаты. Обе модели уже выложены в открытый доступ на Hugging Face.

Утечка данных и теории заговора

Естественно, такой внезапный успех DeepSeek породил немало вопросов и попал под пристальное внимание конкурентов.

Известный ИИ-инвестор Дэвид О. Сакс высказал предположение, что R1 — это дистилляция о1, а Microsoft уже начала расследование возможной «кражи» данных OpenAI. Есть и другая гипотеза от CEO ScaleAI Александра Ванга: за успехом стоит серьезный вычислительный кластер из 50 тысяч NVIDIA H100, который компания не афиширует из-за экспортных ограничений США. Илон Маск согласен с этим предположением.

Следующий удар нанесла команда Wiz Research, обнаружившая публично доступную базу данных ClickHouse на серверах DeepSeek. База, расположенная на oauth2callback.deepseek.com:9000 и dev.deepseek.com:9000, содержала более миллиона записей с историей чатов, секретными ключами и внутренними данными компании. Самое неприятное — база была доступна без какой-либо аутентификации и позволяла выполнять произвольные SQL-запросы через веб-интерфейс.

DeepSeek пока никак не комментируют ни одну из ситуаций, но думается, что новые инциденты не заставят себя ждать.

А что вы думаете о прорыве DeepSeek и его «закулисье»? Поделитесь своим мнением в комментариях!

Ответка от OpenAI

Лидеры индустрии стараются не ударить в грязь лицом на фоне своих китайских коллег и радуют пользователей тремя мощными релизами: Operator, Tasks и o3-mini. Рассказываем о каждом из них.

Operator: первый автономный агент от OpenAI

OpenAI наконец представила своего долгожданного ИИ-агента Operator — и это действительно впечатляет. В основе агента лежит модель Computer-Using Agent (CUA), построенная на GPT-4o, которая умеет самостоятельно управлять браузером: кликать кнопки, заполнять формы и навигировать по меню. Все действия выполняются в отдельном защищенном окне браузера прямо внутри чата.

Пример работы Operator (источник изображения) — *Пример работы Operator* *(источник изображения)*

С помощью Operator можно автоматизировать множество задач: от заказа доставки еды до планирования путешествий. При этом OpenAI уделила отдельное внимание вопросам безопасности: для операций с конфиденциальными данными (например, ввод данных банковской карты или доступ к почте) требуется подтверждение пользователя. В системе также предусмотрен мониторинг подозрительной активности, который автоматически останавливает исполнение задач при обнаружении потенциальных угроз.

Пока Operator доступен только американским пользователям с подпиской Pro ($200 в месяц), но OpenAI обещает постепенно расширить доступ на другие страны и тарифы. Правда, как отметил Сэм Альтман во время презентации, для Европы это «займет некоторое время». Про РФ почему-то ничего не сказал.

Tasks: ChatGPT выходит за рамки диалога

В ChatGPT появилась новая функция Tasks — первый шаг к превращению чат-бота в полноценного цифрового ассистента. Теперь можно планировать задачи на определенное время и создавать регулярные напоминания, например «присылай прогноз погоды каждое утро в 8» или «напомни про встречу через час».

Примеры тасков (источник изображения) — *Примеры тасков* *(источник изображения)*

Особенность Tasks в том, что бот выполняет задания, даже когда пользователь оффлайн. Система поддерживает до 10 активных задач одновременно и может сама предлагать их создание, опираясь на контекст разговора. Например, если вы не закончили писать код, ChatGPT заботливо спросит, не хотите ли запланировать возвращение к задаче позже.

Для использования Tasks нужно выбрать опцию «4o with scheduled tasks» в селекторе моделей. Сейчас функция доступна только для подписчиков Plus, Team и Pro. OpenAI планирует интегрировать Tasks с другими экспериментальными инструментами, включая Operator и систему Caterpillar для продвинутой обработки информации.

o3-mini: новая и более доступная

В OpenAI поднапряглись из-за шумихи с DeepSeek и оперативно выпустили o3-mini — новую модель в линейке reasoning, которая достигает уровня o1 в задачах STEM, но работает быстрее и требует меньше ресурсов. Это первая из мини-версий, поддерживающая Function Calling и Structured Outputs, но главная ее инновация — три уровня «глубины размышлений», которые позволяют оптимизировать баланс между скоростью и точностью ответов.

И действительно, маленькая, да удаленькая: версия с high reasoning достигает точности 87.3% на AIME 2024, 77% на научных вопросах уровня PhD (GPQA Diamond) и решает 32% задач на FrontierMath с первой попытки. В области программирования модель получила рейтинг 2073 Elo на Codeforces. При этом ответы генерируются на 24% быстрее предшественника: в среднем 7.7 секунд против 10.16 у o1-mini.

Результаты математического бенчмарка AIME 2024 (источник изображения) — *Результаты математического бенчмарка AIME 2024* *(источник изображения)*

Самое приятное — o3-mini стала первой reasoning-моделью, доступной бесплатным пользователям ChatGPT. Для платных подписчиков увеличен лимит с 50 до 150 сообщений в день, а Pro-пользователи получили неограниченный доступ к версиям medium и high reasoning.

Qwen 2.5: миллионный контекст и новый флагман

Еще один участник ИИ-гонки от Китая, команда Qwen от Alibaba Group, продолжает удивлять темпами: за два дня они выпустили сразу две значимые модели. Первая — Qwen 2.5 с рекордным контекстным окном в 1 миллион токенов. Модель доступна в открытом доступе на Hugging Face в версиях 7B и 14B параметров.

Такого впечатляющего размера контекста удалось достичь благодаря использованию memory layers — специальных слоев, заменяющих классические feed-forward компоненты. В этой архитектуре ключи и значения механизма внимания становятся обучаемыми связками, что позволяет модели выбирать только наиболее релевантные пары вместо поиска по всему пулу key-values. Результат — более эффективные вычисления и улучшенная долгосрочная память.

Следом команда представила Queen 2.5-Max — масштабную Mixture-of-Expert модель, предобученную на 20 триллионах токенов с последующим файнтюнингом и RLHF. На бенчмарках она достигает уровня DeepSeek-v3 и GPT-4o, а на HumanEval показывает внушительные 73%. Обе модели уже доступны для бесплатного тестирования через API и веб-интерфейс.

Perplexity расширяет границы: новый API и ассистент для Android

Perplexity AI уже давно известны своим комбо ИИ и поисковика, и вот наконец они представили сразу два значимых отдельных продукта: Sonar Pro API для разработчиков и нового AI-ассистента для Android, способного управлять приложениями.

Sonar Pro API позволяет разработчикам встраивать в свои приложения инструменты генеративного поиска с поддержкой цитирования источников. В отличие от большинства современных решений, которые ограничены данными обучения, Sonar Pro подключается к интернету в реальном времени, что обеспечивает актуальность и достоверность ответов. В рамках API разработчики получили доступ к расширенным функциям вроде JSON mode и возможности фильтрации поисковых доменов.

Результаты Sonar Pro на бенчмарке SimpleQA (источник изображения) — *Результаты Sonar Pro на бенчмарке SimpleQA* *(источник изображения)*

Параллельно компания выпустила Android-ассистента, способного управлять приложениями и выполнять сложные задачи: от бронирования столиков через OpenTable до вызова Uber. Система поддерживает как голосовые команды, так и визуальный ввод через камеру. По словам CEO Аравинда Сриниваса, это знаменует переход Perplexity от простой поисковой системы к полноценному интегрированному ассистенту. Интересно, что релиз состоялся сразу после анонса аналогичных возможностей в Google Gemini.

Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты

Tencent представила новую версию своей системы для создания трехмерных моделей из обычных изображений. Hunyuan3D 2.0 использует двухкомпонентную архитектуру: Hunyuan3D-DiT отвечает за создание базовой геометрии объектов, а Hunyuan3D-Paint накладывает реалистичные текстуры с учетом поверхностных углов и позиций.

Пример работы Hunyuan3D 2.0 (источник изображения) — *Пример работы Hunyuan3D 2.0* *(источник изображения)*

Технически система работает через диффузионный трансформер, который сначала анализирует и представляет основные формы в сжатом виде, а затем генерирует 3D-модель, максимально соответствующую входному изображению. Особое внимание уделено текстурированию: система удаляет эффекты освещения из оригинального изображения, что позволяет текстурам корректно отображаться при любом освещении. Попробовать Hunyuan3D 2.0 можно уже сейчас через веб-интерфейс Hunyuan3D-Studio, правда, для доступа потребуется авторизация через WeChat, QQ или китайский номер телефона.

Новости от гигантов индустрии

Project Stargate: США начинают новую технологическую гонку

Свой второй срок Дональд Трамп решил начать с изменения расстановки сил в мире ИИ. Он анонсировал запуск Project Stargate — масштабной частной инициативы по развитию ИИ-инфраструктуры в США. Стартовые инвестиции составят $100 млрд, а к 2029 году общий объем вложений планируется довести до $500 млрд. Для сравнения: это в 10 раз больше последнего инвестраунда OpenAI и в 7 раз превышает совокупные инвестиции во все европейские ИИ-стартапы за 2024 год.

За реализацию отвечает необычный альянс технологических компаний. OpenAI берет на себя операционное управление и технологическую часть, SoftBank выступает главным инвестором, а Oracle, Arm, Microsoft и NVIDIA обеспечивают техническую экспертизу. Первым делом консорциум займется строительством сети датацентров, начиная с Техаса. Интересно, что проект полностью частный — государственные деньги в нем не участвуют.

Stargate серьезно меняет расклад в индустрии. OpenAI, получив доступ к собственной инфраструктуре, больше не зависит от вычислительных мощностей Microsoft. При этом сотрудничество с Azure продолжится, но теперь на более равных условиях. Помимо технологического лидерства, проект должен дать мощный экономический эффект: создание сотен тысяч рабочих мест, развитие смежных отраслей и реиндустриализация отдельных регионов США.

В ответ на американскую инициативу правительство Китая объявило о выделении 1 триллиона юаней (около $137 млрд) на развитие искусственного интеллекта. В отличие от частного Stargate, китайский проект полностью государственный: субсидии получат пять ключевых вендоров, включая DeepSeek. Хотя сумма в три раза меньше американской, массовое государственное финансирование может дать более быстрый эффект.

CES 2025: яркие новинки от NVIDIA

В Лас-Вегасе завершилась главная технологическая выставка года, и NVIDIA, похоже, решила устроить настоящую революцию в мире персонального ИИ. Джен-Сун Хуанг представил целую экосистему продуктов — от домашних суперкомпьютеров до специализированных моделей для роботов. Разбираем главные анонсы.

RTX 50: новое поколение видеокарт

NVIDIA начала презентацию с главного — новой линейки RTX 50 на архитектуре Blackwell. Флагманская RTX 5090 впечатляет: 92 миллиарда транзисторов, 3,352 триллиона AI-операций в секунду (TOPS) и пропускная способность памяти 1.8 ТБ/с.

Линейка включает:

RTX 5090 — флагман для профессионалов;
RTX 5080;
RTX 5070 Ti;
RTX 5070 — производительность на уровне прошлого топа 4090.

Особый акцент сделан на поддержке NIM (NVIDIA AI Microservices) — это позволит запускать локальные LLM даже на домашних компьютерах.

Project DIGITS: суперкомпьютер размером с Mac mini

Одна из главных сенсаций выставки — Project DIGITS, персональный ИИ-суперкомпьютер по цене игрового ноутбука.

Архитектура суперкомпьютера (источник изображения) — *Архитектура суперкомпьютера* *(источник изображения)*

За $3000 вы получаете устройство размером с Mac mini, способное запускать языковые модели до 200B параметров без подключения к облаку. В основе — новый чип GB10 Grace Blackwell Superchip, обеспечивающий производительность в 1 петафлопс. А если объединить два таких устройства, можно работать с моделями до 405B параметров — это уже уровень серьезных датацентров.

Cosmos: фундамент для роботов будущего

NVIDIA выходит на рынок world models с открытой платформой Cosmos World Foundation Models. Это набор предобученных моделей для роботов, которые уже используются Toyota и Uber в разработке беспилотников. Главная фишка — «колесо данных»: система превращает тысячи реальных поездок в миллиарды виртуальных симуляций для тренировки ИИ.

Одно из применений Cosmos — создание специализированных наборов данных для обучения ИИ-моделей (источник изображения) — *Одно из применений Cosmos — создание специализированных наборов данных для обучения ИИ-моделей* *(источник изображения)*

«ChatGPT-момент для робототехники уже на подходе», — заявил Джен-Сун Хуанг во время презентации. И судя по тому, что платформа уже доступна на GitHub, NVIDIA намерена повысить доступность инструментов для разработки роботов.

AI Blueprints: конструктор агентов

Компания также представила AI Blueprints — шаблоны для разработчиков, упрощающие разработку ИИ-агентов. Это готовые фреймворки с предустановленными инструментами: от микросервисов NIM до фреймворка NeMo. Особое внимание уделили различиям между обычными ИИ-агентами и агентным ИИ:

Обычные агенты: ограниченная автономность, заранее прописанные инструкции;
Агентный ИИ: высокая автономность, способность к обучению и адаптации.

Похоже, NVIDIA всерьез взялась за демократизацию ИИ-технологий и их доступность в частном использовании.

OpenAI оказались причастны к созданию бенчмарка FrontierMath

Неожиданный поворот в истории с нашумевшим математическим бенчмарком FrontierMath. Как выяснилось, OpenAI не просто тестировали на нем свою модель o3, но и спонсировали его создание, имея доступ к большинству задач и решений.

EpochAI, разработчики бенчмарка, долгое время скрывали этот факт даже от собственной команды. Шесть математиков, участвовавших в проекте, заявили, что не знали об эксклюзивном доступе OpenAI к тестам и не стали бы участвовать в разработке, если бы владели этой информацией. И это при том, что именно результаты на FrontierMath (25% против обычных 2% у других моделей) стали одним из главных козырей при презентации o3.

EpochAI признали ошибку, объяснив ее контрактными обязательствами перед OpenAI. По их словам, существует «устное соглашение» о неиспользовании задач для обучения моделей. Однако ведущий математик проекта Эллиот Глейзер подтвердил, что они до сих пор не смогли независимо верифицировать заявленные OpenAI результаты.

Meta отказывается от фактчекинга в пользу «народной модерации»

Марк Цукерберг объявил о радикальных изменениях в политике модерации контента Meta. Компания откажется от услуг сторонних фактчекеров в пользу системы «community notes», похожей на ту, что используется в X (бывший Twitter). Изменения коснутся всех платформ компании — Facebook, Instagram, WhatsApp и Threads.

По словам Цукерберга, это возвращение к «корням свободы самовыражения». Он признал, что существующая система модерации делает слишком много ошибок: даже если блокируется всего 1% постов, это затрагивает миллионы пользователей. Кроме того, компания переносит команды модерации из Калифорнии в Техас, чтобы снизить «предвзятость» в принятии решений.

Кадр из обращения Цукерберга (источник) — *Кадр из обращения Цукерберга* *(источник)*

Многие видят в этом решении политический подтекст — попытку наладить отношения с новой администрацией Трампа и республиканским Конгрессом. Эксперты опасаются, что отказ от профессионального фактчекинга может привести к новой волне дезинформации, особенно в преддверии выборов. Для бизнес-аккаунтов это означает как новые возможности в создании контента, так и риски столкнуться с неконтролируемой критикой и теориями заговора.

Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google DeepMind

Создатель Keras и один из ведущих исследователей Google DeepMind Франсуа Шолле объявил о запуске собственной лаборатории Ndea. К проекту присоединился его бывший коллега по Google Ники Кнуп, и, похоже, они замахнулись на что-то действительно масштабное.

Название Ndea (читается как «идея» с буквой «n») отсылает к древнегреческим концепциям ennoia (интуитивное понимание) и dianoia (логическое мышление). Главная цель — объединить глубокое обучение с программным синтезом для создания AGI. Но самое интересное не это: команда планирует построить своего рода «фабрику научного прогресса», способную генерировать и коммерциализировать новые идеи в промышленных масштабах.

В фокусе внимания не только очевидные направления вроде беспилотного транспорта или разработки лекарств, но и потенциальные прорывы в областях, которые мы пока даже не можем себе представить. Учитывая репутацию Шолле как создателя Keras и бенчмарка ARC AGI, а также его вклад в развитие глубокого обучения, за этим проектом определенно стоит следить.

Новинки и открытия

Postman и Zapier запускают конструкторы ИИ-агентов

2025 потихоньку начинает подтверждать свое звание года ИИ-агентов: сразу две популярные платформы для автоматизации представили свои no-code решения.

Postman запустил визуальный конструктор агентных воркфлоу, делая ставку на свою обширную экспертизу в работе с API — ключевым компонентом агентной архитектуры.

Следом свой конструктор анонсировал Zapier, предложив доступ к более чем 7000 интеграций с популярными сервисами вроде Notion, Jira и Google Docs. 2025 год явно станет годом демократизации агентных технологий: теперь создавать ИИ-агентов смогут не только инженеры, но и обычные пользователи.

Anthropic рассказали о проблемах и будущем alignment

Команда Anthropic выпустила интересное видео об элайменте с участием четырех ведущих разработчиков, включая Яна Лейке, известного по работе в OpenAI. Главный вывод — существующие подходы вроде RLHF и constitutional AI достигли своего предела и требуют переосмысления.

Ключевая проблема — масштабирование. Текущие методы работают для предсказуемых задач, но что делать, когда ИИ начнет решать проблемы, которые человек не может напрямую проверить? Отдельный вызов — ризонинг: сейчас модели «думают» на английском, что позволяет анализировать их рассуждения, но это может измениться.

Исследователи видят два перспективных направления: интерпретация фичей для контроля «честности» моделей и супер-элаймент для работы со сложными автономными системами. В Anthropic уже экспериментируют с делегированием элаймента другим ИИ-моделям и создали специальные red-blue команды: одни разрабатывают «злые» модели, другие учатся их исправлять.

Hugging Face запускает бесплатный курс по созданию ИИ-агентов

Hugging Face представили новый бесплатный сертифицированный курс, посвященный разработке и развертыванию ИИ-агентов. Программа охватывает как теоретические основы (как агенты воспринимают окружение, рассуждают и принимают решения), так и практическое применение популярных фреймворков вроде LangChain и LlamaIndex.

Общий план курса (источник изображения) — *Общий план курса* *(источник изображения)*

Особый акцент сделан на реальных примерах использования: от автоматизации SQL-запросов до генерации кода и анализа документов. По завершении курса участники получают сертификат, подтверждающий их навыки в создании агентных систем. Записаться на курс может любой желающий — специальных технических знаний не требуется.

Трансформер научился предсказывать активность мозга

Команда Университета Сиднея представила впечатляющую разработку: трансформер, способный предсказывать состояния мозга на 5 секунд вперед на основе всего 21 секунды сканирования. В основе — архитектура с 8 головами внимания, которая анализирует активность 379 областей мозга.

Архитектура трансформера (источник изображения) — *Архитектура трансформера* *(источник изображения)*

На тестах модель показывает феноменальные результаты: MSE 0.0013 на одной точке предсказания и корреляция >0.85 для последовательности из семи состояний (5.04 секунды). С увеличением горизонта предсказаний точность модели снижается, но в пределах первых пяти секунд прогнозы остаются исключительно точными.

Самое интересное, что это первый подход, который действительно имеет шанс на практическое применение. В мире много пациентов, которые не могут проходить длительные сеансы МРТ, и возможность получать надежные данные с коротких сканирований может стать для них настоящим прорывом.

Исследование показало эффективность ИИ в обнаружении рака груди

Масштабное исследование в Германии подтвердило преимущества использования искусственного интеллекта при скрининге рака молочной железы. Исследователи проанализировали данные 461 818 женщин, часть из которых проходила обследование с применением ИИ, а часть — по стандартной методике с двумя радиологами.

В группе с ИИ выявляемость оказалась на 17.6% выше — 6.70 случаев на 1000 обследований против 5.70 при стандартном подходе. Важно, что количество ложных срабатываний осталось на том же уровне. Система не только помечает «нормальные» снимки, но и выдает предупреждения, если радиолог пропускает подозрительный участок: благодаря этой функции было выявлено 204 случая рака.

Если рентгенологи ошибочно оценивают случай как нормальный, система выдает алерт и подсвечивает на снимке подозрительную область, предлагая пересмотреть решение.

Особенно актуально это для стран вроде Великобритании, где наблюдается 29%-й дефицит радиологов. Правда, эксперты отмечают необходимость долгосрочных исследований: увеличение выявляемости медленно растущих форм рака может привести к избыточной диагностике.

Свежие инструменты

Для работы с данными

Gitingest — конвертация Git-репозиториев в текстовый формат для обучения LLM.

LOTUS — опенсорсный семантический движок для быстрой обработки данных с помощью LLM.

Trafilatura — Python-пакет для сбора и структурирования веб-контента в различные форматы.

Monkt — конвертация PDF, DOCX, PPTX и других форматов в JSON для обучения ИИ.

Bruin — инструмент для data pipeline, объединяющий прием данных, SQL/Python трансформации и контроль качества.

SemHash — быстрый и точный инструмент для удаления дубликатов из текстовых датасетов.

Для разработки

Zasper — опенсорсная IDE для эффективной работы с Jupyter Notebooks.

jupytext — конвертация Jupyter Notebooks в Markdown, Julia, Python или R-скрипты.

ipychat — ИИ-расширение для IPython, помогающее быстрее писать и отлаживать код.

Curator — инструмент для создания пайплайнов синтетических данных.

TorchGeo — наборы данных и модели для работы с геопространственными данными от Microsoft.

Для обучения и продуктивности

EasyLang AI — персонализированное изучение языков с ИИ-генерацией упражнений.

Lingocat — практика языков с ИИ-репетитором.

Reset — ИИ-помощник для работы с тревожными мыслями.

Для автоматизации

Add to Sheets — Chrome-расширение для сохранения контента в Google Sheets.

Lecca — создание команд ИИ-агентов для выполнения рабочих процессов.

TestSprite — end-to-end QA продукт для автоматизации тестирования.

Norm — ИИ-агенты для проверки соответствия продукта нормативным требованиям.

Исследования на почитать

R3GAN: новая жизнь классической архитектуры

О чем: исследователи предложили новый подход к GAN с теоретически доказанной сходимостью, превосходящий StyleGAN2 и конкурирующий с диффузионными моделями при меньших вычислительных затратах.

Ссылка на исследование

Titan: трансформер с долгой памятью

О чем: Google представили архитектуру, решающую проблему «забывчивости» трансформеров через комбинацию краткосрочной и долгосрочной памяти. Модель масштабируется до 2+ миллионов токенов контекста без потери точности.

Ссылка на исследование

Go-with-the-Flow: плавная генерация видео

О чем: Netflix разработали новый подход к генерации видео, добавляющий в диффузионную модель оптический поток движения. Это позволяет создавать более естественные движения без мерцания текстур при минимальном увеличении вычислительных затрат.

Метод состоит из трех компонентов: извлечение поточного поля, искажение шума в реальном времени и дообучение/инференция модели диффузии

Ссылка на исследование

Признаки самосознания в LLM

О чем: исследователи из Truthful AI обнаружили, что языковые модели способны формировать устойчивое «представление о себе» на основе обучающих данных и даже самостоятельно выявлять внедренные бэкдоры.

Ссылка на исследование

Агенты глазами Google

О чем: Google выпустили подробный whitepaper об архитектуре ИИ-агентов, описывающий их ключевые компоненты, типы инструментов и методы обучения, с практическими примерами реализации на платформе Vertex AI.

Ссылка на исследование

Квантовое машинное обучение для больших данных

О чем: исследователи показали, как квантовые вычисления могут радикально ускорить обработку масштабных датасетов, открывая новые возможности для машинного обучения.

Ссылка на исследование

ИИ в здравоохранении

О чем: обзор показывает, что, несмотря на впечатляющие результаты ИИ в здравоохранении, нужны дополнительные исследования для безопасного внедрения в клиническую практику.

Ссылка на исследование

Конвергенция ИИ и нейронауки

О чем: исследование показывает, как пересечение изучения человеческого познания и разработки ИИ-систем ускоряет прогресс в обеих областях.

Ссылка на исследование

Эксперимент Delphi: моральные суждения машин

О чем: исследователи разработали подход, позволяющий моделям делать более обоснованные моральные суждения и лучше обобщать этические принципы, чем стандартные LLM.

Иллюстрация из исследования: Delphi построена на базе языковой модели T5-11B, специализированной для ответов на вопросы здравого смысла (UNICORN), и обучена на Norm Bank — специально составленной базе моральных ситуаций и решений. Система принимает запросы и выдает либо ответы да/нет, либо развернутые формулировки, что делает ее первым шагом к созданию надежной системы морального рассуждения.

Ссылка на исследование

SearchSYS для тестирования ARM

О чем: новый подход к тестированию симуляторов цифровых схем, фокусирующийся на симуляции ARM ISA с использованием комбинации поиска и LLM.

Ссылка на исследование

Систематический обзор генеративного ИИ

О чем: исследователи проанализировали последние прорывы в генеративном ИИ и выделили ключевые тренды — от специализированных моделей до новых методов обучения.

Ссылка на исследование

Agent-R: самообучение через рефлексию

О чем: исследователи предложили фреймворк для обучения ИИ-агентов исправлять свои ошибки на лету. Вместо традиционной системы наград используется MCTS для построения правильных траекторий из ошибочных, что улучшает результаты на 5.59%.

Фреймворк Agent-R состоит из двух фаз. В первой фазе мы используется MCTS (поиск Монте-Карло по дереву) и механизм рефлексии, управляемый моделью, для построения траекторий исправлений. Во второй фазе агенты обучаются на собранных траекториях исправлений. Эти две фазы могут повторяться итеративно.

Ссылка на исследование

GuardReasoner: разумные ограничения для LLM

О чем: новый подход к безопасности языковых моделей через обучение рассуждению. 8B-версия превзошла GPT-4o+CoT на 5.74% и LLaMA Guard 3 на 20.84% по F1-score, используя датасет из 127K примеров с подробными цепочками рассуждений.

Ссылка на исследование

SFT vs RL: кто лучше обобщает

О чем: сравнительное исследование показало, что RL лучше обобщает новые сценарии, в то время как SFT склонен к запоминанию. При этом SFT остается необходимым для стабилизации выходного формата перед RL-обучением.

Ссылка на исследование

Видеогенерация с человеческой обратной связью

О чем: исследователи разработали систему улучшения видеогенерации через human feedback. Ключевые компоненты: VideoReward для многомерной оценки качества и три новых алгоритма для flow-based моделей, включая Flow-DPO и Flow-NRG.

Ссылка на исследование

Заключение

Темп развития ИИ-индустрии ускоряется с бешеной силой. Особенно впечатляют масштабы изменений — миллиардные инвестиции, гонка за лидерство уже между странами, а не единичными корпорациями. И это год только начался.

Мы с нетерпением ждем дальнейших событий и обновлений, а на сегодня у нас все! Делитесь в комментариях, что в январе впечатлило вас большего всего.

Комментарии (1)

Ingref
05.02.2025 12:54
#27883526
Интересная подборка, спасибо! Мне ещё запомнилась статья про сверхвеса в LLM - https://habr.com/ru/articles/876620/

А ещё рассуждающий алгоритм DeepSeek-R1 можно воссоздать менее чем за $30 - https://github.com/Jiayi-Pan/TinyZero

DeepSeek штурмует рейтинги, OpenAI запускает первого автономного агента: главные события января в сфере ИИ +21

Новые модели

DeepSeek vs OpenAI: китайская компания выпустила открытую модель уровня o1

Что известно про модель?

Мультимодальная Janus-Pro

Утечка данных и теории заговора

Ответка от OpenAI

Operator: первый автономный агент от OpenAI

Tasks: ChatGPT выходит за рамки диалога

o3-mini: новая и более доступная

Qwen 2.5: миллионный контекст и новый флагман

Perplexity расширяет границы: новый API и ассистент для Android

Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты

Новости от гигантов индустрии

Project Stargate: США начинают новую технологическую гонку

CES 2025: яркие новинки от NVIDIA

RTX 50: новое поколение видеокарт

Project DIGITS: суперкомпьютер размером с Mac mini

Cosmos: фундамент для роботов будущего

AI Blueprints: конструктор агентов

OpenAI оказались причастны к созданию бенчмарка FrontierMath

Meta отказывается от фактчекинга в пользу «народной модерации»

Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google DeepMind

Новинки и открытия

Postman и Zapier запускают конструкторы ИИ-агентов

Anthropic рассказали о проблемах и будущем alignment

Hugging Face запускает бесплатный курс по созданию ИИ-агентов

Трансформер научился предсказывать активность мозга

Исследование показало эффективность ИИ в обнаружении рака груди

Свежие инструменты

Для работы с данными

Для разработки

Для обучения и продуктивности

Для автоматизации

Исследования на почитать

R3GAN: новая жизнь классической архитектуры

Titan: трансформер с долгой памятью

Go-with-the-Flow: плавная генерация видео

Признаки самосознания в LLM

Агенты глазами Google

Квантовое машинное обучение для больших данных

ИИ в здравоохранении

Конвергенция ИИ и нейронауки

Эксперимент Delphi: моральные суждения машин

SearchSYS для тестирования ARM

Систематический обзор генеративного ИИ

Agent-R: самообучение через рефлексию

GuardReasoner: разумные ограничения для LLM

SFT vs RL: кто лучше обобщает

Видеогенерация с человеческой обратной связью

Заключение

Комментарии (1)

Ingref