Большой Дайджест Недели.
Дайджест по материалам зарубежных медиа. Минимум булшита, максимум инсайтов.
=> Переход от имитации человеческих способностей к автономному обучению через опыт обещает разблокировать сверхчеловеческие возможности во многих областях. Хотя этот переход сопряжен с рисками, он представляет собой естественную эволюцию от текущих ограничений LLM к истинно автономному интеллекту, способному на открытия и инновации, выходящие за рамки существующих человеческих знаний. Статья Роберта Саттона и Дэвида Силвера (вышла два месяца назад, но я как-то упустил).
И тоже самое говорит доктор Фэй-Фэй Ли, которую часто называют крестной мамой ИИ.
Пространственный интеллект, основное направление ее новой компании World Labs, представляет собой вызов, возможно, более сложный, чем язык. Ли подчеркнула фундаментальные различия: язык по своей сути одномерен и чисто генеративен, это человеческая конструкция без прямого физического аналога.
Напротив, реальный мир трехмерен, продолжает она, управляется сложной физикой и требует непрерывного взаимодействия и понимания, а не только генерации. «У нас нет этих пространственных данных в Интернете», объяснила она, подчеркнув их дефицит по сравнению с текстовыми данными. Этот комбинаторный взрыв возможностей в трехмерном пространстве в сочетании с некорректной задачей вывода трехмерности из двухмерных проекций делает пространственный интеллект значительно более сложной задачей.
=> Эксперименты в гибридных командах, когда людей произвольным образом объединяли с ИИ-агентами привело к внушительному повышению индивидуальной производительности на 60%, более целенаправленному общению и более качественному результату.
Исследователи также экспериментировали с личностными чертами ИИ-агентов, основанными на модели "Большой пятерки" (открытость, добросовестность, экстраверсия, доброжелательность, нейротизм).
Обнаружилось, что совместимость личностных характеристик человека и ИИ критически важна:
Добросовестные люди в паре с "открытыми" ИИ-агентами улучшали качество изображений
Экстравертные люди с "добросовестными" ИИ-агентами показывали снижение качества работы
Open AI это давно поняли, и регулярно задают вопрос своим пользователям ChatGPT: "Вам нравится характер это модели?", пытаясь нащупать ваши предпочтения с далеко идущими, исключительно научными целями)
=> Интеллект это процесс, а не навык. Приписывание интеллекта любой фиксированной программе поведения (условной LLM) это большая ошибка, фундаментальное недопонимание, которое направляло и вводило в заблуждение исследователей в течение многих лет. Это был центральный тезис Франсуа Шолле, когда он изложил новый путь к AGI выступая на AI Startup School в Сан-Франциско.
Шолле считает, что отрасль зациклилась на идее, что простое впихивание большего количества данных в более крупные модели спонтанно породит AGI. Однако этот подход создает системы, которые являются мастерами автоматизации, а не интеллекта.
Как я понял, он противопоставляет любые статические, фиксированные навыки (в том числе и паттерны статистической вероятности) автономному и адаптивному интеллекту, способности адаптироваться и решать новые проблемы на лету. Но не появляется ли эта новая способность именно в процессе развития модели, в том числе на масштабе данных?
Чтобы построить AGI, утверждает Шолле, мы должны объединить два типа абстракции. Первый это интуитивная, основанная на восприятии абстракция, в которой ведущим является именно глубокое обучение. Второй это символическое, имеющее что-то общее с процессом рассуждения, которое позволяет строго, шаг за шагом решать проблемы.
=> Убьёт ли RAG длинный контекст новых версий LLM?
Пока не очень понятно, серия исследовательских статей ниже (за 2024-2025гг) раскрывает текущие возможности и ограничения подходов и позволит разобраться в этом вопросе.
В последнее время становится все более популярным подход под названием CAG (cache-augmented generation). Основная идея заключается в замене поиска документов в реальном времени на предварительно загруженные знания в расширенном контексте LLM. Такой подход обеспечивает более быструю, точную и последовательную генерацию, избегая ошибок поиска и задержек.
Длинноконтекстные LLM довольно гибкое решение, но пока есть ограничения в стоимости и следовательно масштабируемости. Между тем, RAG остается незаменимым для крупномасштабных задач поиска. Возможно, гибридный подход, объединяющий RAG и LLMки с длинным контекстом, пока что оптимальное решение.
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
Retrieval Augmented Generation or Long-Context LLMs?
Bridging the gap to proprietary LLMs in long context and RAG capabilities
Benchmarking LLMs for Environmental Review and Permitting
=> Виртуальную команду ИИ-агентов, запустила компания Intuit, разработчик QuickBooks и Mailchimp. Эти агенты призваны работать как цифровые сотрудники, помогая бизнесу расти и масштабироваться.
Основная цель Intuit освободить время владельцев бизнеса для решения стратегических задач, передав рутинные операции искусственному интеллекту. Это все маленькие шажки в сторону компаний, которые не смотря на их размер и выручку, управляются одним человеком или мини-командой. Хотите узнать больше про эту бизнес-модель, присоединяйтесь к движу айвенторов.
=> Eightfold AI и Harvard Business Review опубликовали отчет, в котором раскрывается несоответствие в стратегии ИИ: ожидается, что отделы кадров возглавят трансформацию рабочей силы на основе ИИ, однако только 5% их рабочих процессов готовы к использованию ИИ, и у большинства нет инструментов для оценки внутренних навыков.
=> Удивительные новости: люди все еще тоже масштабируются
«Поскольку в обозримом будущем компьютеры не смогут сравниться с людьми в их способности абстрактно рассуждать о ситуациях реального мира, нам понадобятся хорошо продуманные взаимодействия людей и компьютеров для решения наших самых насущных проблем».
–Майкл И. Джордан, профессор Калифорнийского университета в Беркли
И хотя статья скорее о другом, нет никаких сомнений, что агентный ИИ потребует значительного человеческого контроля, особенно на этапах планирования, развертывания и обеспечения качества.
=> Понятие идентификации в цифровом мире переопределяется, ИИ-агенты выступают в сети от имени и по поручению своих владельцев, и поэтому появляются и активно растут стартапы, типа Terminal 3, которые специализируются на повышении безопасности аутентификации, онлайн-идентификации и авторизации данных, в том числе и автономных ИИ-агентов. Используя свои наработки (Verifiable Private Identity, Zero-Knowledge Machine Learning) в области Web3 протоколов они ищут инновационные решения для ИИ-агентов, например такие как Agent Auth, которое:
Присваивает уникальные верифицируемые идентичности каждому ИИ-агенту
Обеспечивает безопасные, соответствующие требованиям транзакции ИИ-агентов
Включает мониторинг действий в реальном времени
Позволяет операторам выдавать учетные данные для автономного выполнения транзакций
=> Мнение на HackerNews:
"Обратите внимание на то, что делают компании, занимающиеся ИИ, а не на то, что они говорят. Если бы они ожидали скорого достижения AGI, их поведение было бы совершенно иным. Зачем беспокоиться о разработке чат-ботов или о продажах, когда вы будете управлять AGI всего через несколько лет? Конечно, все ресурсы должны быть направлены на эту цель, поскольку она должна привести человечество в новую процветающую эпоху."
=> Развитие ИИ сегодня движимо квази-религиозными убеждениями, а не научными основаниями, заявляет автор книги "Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI" Карен Хао в своем интервью. Концепция AGI не имеет научного обоснования, но создала два противоборствующих лагеря:
"Бумеры" верят, что AGI приведет к утопии
"Думеры" считают, что AGI уничтожит человечество
Оба лагеря объединяет убеждение, что они должны контролировать эту технологию, а не демократизировать ее.
Карен, в том числе, критикует подход OpenAI к автоматизации рабочих мест. Она считает, что компания открыто заявляет, что создает "высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ". Такой тезис сам по себе вызывает высокий уровень неприятия технологии.
=> Google Cloud активно продвигает мультиагентный подход. Они разрабатывают экосистему из множества агентов в рамках общей структуры метаданных, управляемой Gemini. Каждый агент может быть экспертом в своей области, например, в области инжиниринга данных, науки о данных, управления или аналитики данных. Эти агенты также могут передавать информацию и задачи друг другу.
Фират Текинер, старший продакт-менеджер в Google Cloud, говорит: «Мы направляемся в будущее, где один агент принимает данные, другой занимается сложным преобразованием, третий фокусируется на качестве данных, а третий занимается проверкой». Он сравнил этот тип сотрудничества с колонией муравьев. Отдельные муравьи могут индивидуально выполнять простые задачи. Однако, когда они объединяются, они могут решать действительно сложные проблемы.
«Система становится гораздо более надежной, устойчивой и адаптивной с многоагентными системами», отмечает Текинер.
И здесь же, лаборатория искусственного интеллекта Google стремится запатентовать «внутриагентную речь для облегчения обучения выполнению задач», инструмент, который поможет агентам и роботам понимать окружающий мир.
Система на входе будет принимать изображения и видео человека, выполняющего задачу, и генерировать естественный язык для описания происходящего с использованием языковой модели. Например, робот может смотреть видео, на котором кто-то поднимает чашку, получая при этом ввод «человек поднимает чашку».
Это позволяет ему воспринимать то, что он «видит», и связывать это с внутренней речью или с тем, что он может «думать». Внутренняя речь будет подкреплять действия, которые необходимо предпринять при столкновении с определенными объектами.
Ключевое преимущество системы называется обучением «с нуля», поскольку оно позволяет агенту или роботу взаимодействовать с объектами, с которыми он раньше не сталкивался. ОБ этом собственно и была первая новость выше.
Такие внутренние монологи «способствуют эффективному обучению, используя язык для понимания мира, и, таким образом, могут сократить память и вычислительные ресурсы, необходимые для обучения системы, используемой для управления агентом», говорится в заявке DeepMind.
Если вы уже создаете или планируете создавать мультиагентные системы, вам может быть актуален практический мануал и стратегический конструктор для тех, кто проектирует, внедряет и развивает продукты с использованием LLM, который выходит в этом году в свет. В комментариях я дам ссылку, где первую часть можно взять в два раза дешевле.
=> Революционный подход к тестированию веб-приложений, и не только, используя визуальный ИИ для понимания интерфейсов. Magnitude это открытый фреймворк для автоматизации браузера на основе ИИ, который позволяет управлять браузером с помощью естественного языка.
=> Автоматизация цифрового маркетинга в авангарде изменений. Очередной копилот на подходе, этот ориентирован на работу с большими бюджетами.
«Мы трансформируем команды цифрового маркетинга, которые управляют расходами в десятки миллионов, в команды, которые могут эффективно управлять сотнями миллионов», прокомментировал Тристан Шаберт, соучредитель и генеральный директор Massive Dynamic.
=> В одной из недавних статей я уже писал подробно об отчете Menlo Ventures "2025: The State of Consumer AI", сегодня добавлю лишь один инсайт. Потребительский ИИ это рынок с текущим объемом в 12 миллиардов долларов, но с возможностью в 420 миллиардов долларов. В сорок раз больше.
Эпоха первого этапа экспериментов закончилась. Сейчас мы уверенно вступили в эпоху утилитарного ИИ, когда потребители принимают инструменты, которые решают реальные, постоянные проблемы в их повседневной жизни.
Если кто-то из вас планирует экспериментировать и делать что-то свое, не стесняйтесь, пишите. Я сейчас почти полностью сконцентрировался на развитии новых ИИ-проектов, у меня в лаборатории скопилось много нереализованных прикладных идей, а также отточенные годами, в зависимости от отрасли и гео проекта, проверенные стратегии выхода на рынок. Во всем, что касается продукта и рынка, я смогу помочь.
=> И напоследок, если вы еще не видели, то это Fireplexity - опенсорсный клон Perplexity от разработчиков Firecrawl.
***
Предыдущие материалы и выпуски дайджеста агентной экономики, там до сих пор много интересных инсайтов.
О новых ИИ бизнес-моделях, нерешенных задачах и ИИ-стартапах: Айвентор и Фред
MAXH0
Интересно сколько процентов респондентов отвечает, что он чат ботов им не нужен ни характер ни личное мнение?
alfredlao Автор
Если выборка будет случайная, то думаю более 70%. И если скорость изменений будет такая же высокая, то можно запастись попкорном, мы увидим следствия этих настроений.