Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали? / forpes.ru

Главная
Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали?

Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали? +1

06.01.2025 09:02

technokratiya 3 1400 Источник

Илья Суцкевер, соучредитель и бывший главный ученый OpenAI, утверждает, что данные — это ископаемое топливо ИИ, и мы его исчерпали. Правда ли это?

Дисклеймер: это вольный перевод колонки издания Forbes, которую написал Гамильтон Ман. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

Это заявление сделано в контексте объяснения того, что ограничение для ИИ (особенно для LLM) заключается в качестве данных, необходимых для имитации интеллекта, — ограничение, часто называемое «энтропийным разрывом».

Энтропия в теории информации — это мера неопределенности или непредсказуемости в пробабилистической системе. В контексте ИИ энтропия количественно оценивает вариабельность и богатство информации внутри набора данных, отражая, насколько равномерно распределены или разнообразны данные по возможным исходам. Это разнообразие способствует неопределенности, обеспечивает широкий спектр шаблонов или характеристик, которые охватывает набор данных, и на которых ИИ может учиться.

По-другому «энтропийный разрыв» можно определить как разницу между вариабельностью и богатством шаблонов, присутствующих в обучающих данных, и вариабельностью, необходимой для имитации сложности человеческого интеллекта или реальных сценариев.

В ИИ этот разрыв подчеркивает несоответствие между разнообразием и неопределенностью, присутствующими в обучающих данных, и более широким, более непредсказуемым разнообразием, с которым модель сталкивается при развертывании в реальных условиях.

Чем значительнее этот энтропийный разрыв, тем менее способна модель к обобщению на невидимые данные, адаптации к новым условиям или достижению значимой производительности в разнообразных задачах.

Преодоление этого разрыва требует не только большего количества данных, но и данных более высокого качества, контекстуально богатых и разнообразных наборов данных, которые отражают сложность задач, для выполнения которых предназначен ИИ.

С этой точки зрения, утверждение «данные — это ископаемое топливо ИИ, и мы его исчерпали» равносильно тому, что качественные, контекстуально богатые и разнообразные наборы данных являются конечным ресурсом, аналогичным ископаемому топливу.

Однако это неправда. В отличие от ископаемых видов топлива, которые универсально конечны, дефицит качественных данных сильно зависит от контекста. В некоторых областях, таких как исследования редких заболеваний или специализированные промышленные приложения, доступность специфичных для задачи качественных данных может восприниматься как ограниченная.

Тем не менее, этот дефицит часто можно решить с помощью методов, таких как генерация синтетических данных, дополнение данных или трансферное обучение, которые позволяют уточнить или расширить доступные данные.

Нужно признать, что эти методы не универсальны. Например, синтетические данные могут не полностью охватывать нюансы реальных сценариев, а трансферное обучение может испытывать трудности с обобщением по значительно различающимся доменам. Кроме того, ни один из методов не решает проблемы предвзятости или заполняет пробелы в высокоспециализированных или этически чувствительных наборах данных, где точная и контекстуально-специфическая информация критична. Эти ограничения подчеркивают важность тщательной курации данных и экспертизы в домене для преодоления дефицита качественных данных.

Тем не менее, данные, генерируемые человеком, являются по своей природе возобновляемым ресурсом для ИИ, так как они постоянно генерируются человеческой деятельностью, технологиями и окружающей средой, в отличие от ископаемых видов топлива, которые конечны и не возобновляемы во всех случаях, независимо от обстоятельств.

Как полезность возобновляемости данных, генерируемых человеком, зависит от значительных усилий по предварительной обработке, курации и обеспечению доменной релевантности, сырые данные сами по себе часто недостаточны для ИИ, и недавние исследования показывают, что синтетические данные сами по себе не могут служить заменой.

Таким образом, реальная проблема ИИ, связанная с данными, заключается не в их исчерпании, а в дефиците полезных качественных данных для конкретных задач. Это создает узкие места, имитирующие вызовы исчерпания, но не похожие на них.

Кроме того, что считается «полезным», сильно зависит от задачи и варьируется в зависимости от доменов, так как это полностью зависит от контекста и целей системы ИИ. В отличие от абсолютного дефицита ископаемых видов топлива, дефицит полезных данных — это относительное понятие, формируемое требованиями конкретного приложения и способностью к предварительной обработке, курации или генерации данных, релевантных для задачи.

Более подходящая аналогия может быть такой: данные — это «питьевая вода» ИИ.

Не все данные сразу полезны, как и не вся вода пригодна для питья. Сырые данные, как сырая вода, должны пройти процесс очистки, чтобы стать ценными для систем ИИ. Этот процесс очистки включает очистку данных для удаления шума и ошибок, маркировку для добавления структуры и значения, а также дополнение для повышения разнообразия и применимости. Только после этих шагов данные могут соответствовать конкретным стандартам качества и релевантности, необходимым для приложений ИИ, так же как вода должна быть обработана, чтобы стать безопасной и эффективной для человеческого потребления. Эта аналогия подчеркивает важность подготовки и уточнения в превращении сырых данных в ресурс, который питает развитие ИИ.

Реальная проблема ИИ заключается не в возобновляемости данных, которые постоянно генерируются по замыслу, а в преобразовании этих данных в полезные качественные наборы данных для решения дефицита. Этот процесс должен включать борьбу с критическими вызовами, такими как идентификация и минимизация предвзятостей, обеспечение справедливости и навигация по этическим соображениям. Контекстуальная специфичность также играет ключевую роль, так как данные, которые являются релевантными и полезными в одном домене, могут не подходить для другого.

Эти сложности подчеркивают необходимость вдумчивой курации, строгой валидации и приверженности этическим принципам в превращении сырых данных в надежную основу для систем ИИ.

Когда говорят: «Данные — это ископаемое топливо ИИ, и мы его исчерпали!», мы делаем две ошибки: первое - недооцениваем или забываем, что существуют природные ресурсы, от которых зависит ИИ, которые действительно ископаемые и поэтому невозобновляемы (в отличие от данных).

Вторая, возможно, еще более серьезная, — это делать невидимым то, что создает условия для существования данных, необходимых для обучения ИИ: люди.

Данные не существуют независимо от человеческих действий, решений или систем. Будь то генерируемые через явные действия (например, посты в социальных сетях) или неявно (например, данные сенсоров), люди непосредственно или косвенно ответственны за создание условий для генерации данных. Поскольку данные происходят из человеческой деятельности, их существование и полезность зависят от человеческих вкладов, креативности и труда.

Пока существуют люди, будут существовать данные, включая качественные данные.

По определению, ИИ не выпил все данные, и что важно, не должен, из-за природных ресурсов, которые устанавливают устойчивое ограничение, о котором мы должны заботиться, чтобы поставить искусственную целостность выше любого интеллекта.

Комментарии (3)

cupraer
06.01.2025 09:06
#27748142
пробабилистической системе

Используемой в акватории Баб-эль-Мандебского пролива?

Ссылка для саморазвития: https://ru.wikipedia.org/wiki/Вероятностное_пространство

Пока существуют люди, будут существовать данные, включая качественные данные.

Это утверждение сродни такому: пока существуют камины — будет существовать уголь. Достаточно ли его будет для чего-нибудь, кроме набросков апологетов Веласкеса? — Нет, конечно. И об этом вам неглупый ученый и говорит.
1. Nansch
  06.01.2025 09:06
  #27749118
  - Вы кто? - Мы баптисты. - Что, правда, баб тискаете?

Jirabus
06.01.2025 09:06
#27748462
Да, топливо закончилось очень быстро, судя по тому что Apple открыли ящик Пандоры

Apple начала сканировать с помощью ИИ локальные пользовательские фотографии на предмет достопримечательностей / Хабр

и начали кормить ИИ персональными данными пользователей под видом улучшения сервиса поиска. А еще есть гипотеза черной королевы ИИ: чтобы не тупеть, ИИ должен есть все быстрее. LLM имеют склонность к деградации, которую старательно избегают обсуждать разработчики.

https://community.openai.com/t/reasoning-degradation-in-llms-with-long-context-windows-new-benchmarks/906891

"GPT-4 имеет контекстное окно в 128 000 токенов, в то время как Gemini может похвастаться ошеломляющими 2 миллионами. Хотя эти цифры захватывающие, реальность несколько иная. Вы, как и я, могли заметить, что качество рассуждений LLM имеет тенденцию к снижению при длинных входных данных — явление, которое текущие оценки не в состоянии адекватно охватить "

Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали? +1

Комментарии (3)

cupraer

Nansch

Jirabus