Подготовили для вас подборку исследований из мира искусственного интеллекта, которые стоит изучить на досуге. Поговорим о прорывах в компьютерном зрении, новых LLM‑моделях и качестве работы генеративного ИИ.
Gartner: Agentic AI — главный технологический тренд 2025 года
На роль главного технологического прорыва после генеративного искусственного интеллекта уверенно претендует Agentic AI — то есть ИИ, который может выполнять те или иные задачи автономно, без человека. Теперь это и Gartner подтверждает. Эксперты компании назвали эту технологию главным технологическим трендом 2025 года, пишет VentureBeat. Прогнозируется, что уже к 2028 году такого рода автономные ИИ‑агенты будут принимать не менее 15% повседневных рабочих решений вместо людей. Сначала Agentic AI возьмет на тебя рутинные задачи. Например, он может просто мониторить работу корпоративных систем. Затем предполагается переход на уровень управления этими системами — ИИ сможет анализировать их, чинить и вносить изменения. Также рассматривается возможность и более сложных сценариев использования ИИ‑агентов, в частности — в роли наставников для новых сотрудников.
Генеративный ИИ не понимает реальные закономерности мира
Исследователи из Массачусетского технологического института (MIT), Гарварда и Университета Корнелла пришли к выводу, что даже самые крупные языковые модели искусственного интеллекта создают упрощенные и иногда ошибочные представления о реальном мире. Более того, они не в состоянии понять логику даже простых игр. Эксперименты с навигацией по Нью‑Йорку и игрой «Отелло» показали, что эти модели способны решать задачи, однако при изменении условий их точность значительно снижается. Например, отключение всего лишь 1% улиц привело к падению точности с почти 100% до 67%. Результаты этого исследования ставят под сомнение целесообразность использования языковых моделей в областях, требующих точных научных выводов.
В Google DeepMind разработали ИИ-инструмент, помогающий людям в обсуждении спорных вопросов
Прийти к общему согласию в результате коллективного обсуждения острой социальной или политической проблемы — задача не из легких. Ученые из Google DeepMind придумали, как искусственный интеллект может в этом помочь. Вдохновившись теорией коммуникативного действия Юргена Хабермаса, они разработали своего рода ИИ‑посредника для ведения сложных групповых бесед, которого назвали «Машина Хабермаса». Это языковая модель, которая итеративно генерирует и уточняет утверждения, выражающие позиции в группе по тем или иным социальным или политическим вопросам, помогает найти точки соприкосновения и выработать общую позицию. Способности «Машины Хабермаса» были протестированы в серии экспериментальных дискуссий, участие в которых приняли в общей сложности более 5 тыс. жителей Великобритании. В этих экспериментах большинство участников предпочитали утверждения, сгенерированные ИИ, тем, которые были написаны посредниками‑людьми, и оценивали их как более информативные, ясные и беспристрастные. Более того, они чаще меняли свои взгляды после обсуждения в сторону общего мнения. Подробнее о разработке и результатах ее тестирования рассказано в журнале Science.
Стартап из Норвегии создает альтернативу лидарам для автономных роботизированных систем
Молодой стартап из Норвегии под названием Sonair разрабатывает новую систему компьютерного зрения, работающую на основе ультразвука. Разработчики считают, что их новаторский подход, предполагающий использование роботизированными автономными системами звуковых волн для обнаружения людей и других объектов, будет требовать гораздо меньше энергетических и вычислительных ресурсов. Эта технология может стать более эффективной заменой для традиционных лидаров. Подробности о том, на какой стадии находится разработка и каковы перспективы ее применения, есть в материале TechCrunch.
В Apple разработали ИИ-модель, способную значительно улучшить восприятие глубины машинами
Исследователи из Apple разработали ИИ‑модель под названием Depth Pro, которая способна генерировать детализированную 3D‑карту глубины с высоким разрешением по одному 2D‑изображению. Причем делает она это за 0,3 секунды, на обычном графическом процессоре и не полагаясь на метаданные с камеры.VentureBeatпишет, что это значительный шаг вперед в сфере монокулярный оценки глубины. Разработка может найти широкое применение в секторах, где важна пространственная осведомленность в реальном времени, в частности, в различных системах дополненной реальности и автономном транспорте. Какие технологические приемы лежат в ее основе, читайте в этом препринте. А код и веса лежат на GitHub.