Группа независимых американских организаций планирует построить сеть открытых репозиториев с данными. На их основе будут обучать ML-модели в самых разных отраслях — от медицины до климатических исследований. Инициатива пока находится на самых ранних этапах развития, но мы решили обсудить, зачем она понадобилась.
Несогласованность данных
В последние месяцы языковые модели не сходят с заголовков СМИ. Илон Маск даже призвал временно остановить разработку нейросетей, но быстро передумал и основал собственную компанию, которая займется обучением ML-моделей. Продукты вроде ChatGPT уже внедряют в BI-системы, которые помогают руководителям компаний принимать бизнес-решения.
Крупные языковые модели обучают на основе информации в интернете — и в этом кроется проблема. Такого рода данные могут содержать фактические ошибки или баги, если мы говорим о программном коде. За примером не нужно далеко ходить — в конце марта разработчикам ChatGPT пришлось отключить бота, когда он начал раскрывать истории запросов других пользователей. Причиной стала ошибка в одном из open source компонентов.
Эксперты утверждают, если языковые модели будут обучаться на таком коде, то сами будут генерировать неидеальные программы. Кроме того, по словам одного профессора из Швейцарской высшей технической школы Цюриха, на ответы языковых моделей можно влиять путем вредоносных инъекций в обучающие выборки. В теории решением проблемы может стать разработка курируемых сводов данных для обучения систем ИИ.
Путь к открытым данным
Как раз один такой проект профинансирует NASA, совместно с американскими National Science Foundation, National Institutes of Health и другими организациями. Они разработают Open Knowledge Network (OKN) — открытый набор репозиториев с данными и связанными графами знаний. В каком-то смысле OKN будет представлять собой облачную инфраструктуру для разработки моделей машинного обучения в сфере здравоохранения и правопорядка, космической отрасли и природных исследованиях.
Сейчас организации ищут подрядчиков на каждый из трех этапов разработки. Первый подразумевает формирование графов знаний, которые позволят решать профильные задачи, а второй — разработку и развертывание инфраструктуры для обмена данными. Третий этап посвящен созданию обучающих материалов и инструментария для взаимодействия с OKN.
Частные инициативы
Параллельно с инициативами, направленными на становление интеллектуальных технологий и их углублённую интеграцию в интернет-пространство, развиваются проекты, связанные с идентификацией пользователей. Есть мнение, что уже в скором времени станет невозможно отличить контент, сгенерированный человеком и машиной. Поэтому энтузиасты предлагают протоколы для определения «человечности» участников сетевых коммуникаций.
Так, резидент Hacker News предложил собственный протокол — PeerID. Идентификация личности подразумевает физическую встречу двух участников, которые помещают специальную p2p-подпись в распределенный реестр. Все это происходит без обмена паспортными или какими-либо другими данными.
Специальный сервис под названием «оракул» верифицирует данные в реестре и вычисляет индивидуальный уровень доверия для каждого пользователя. На репутацию виляет количество завершенных «физических» верификаций. Далее, оракул генерирует доказательство с нулевым разглашением. Его получает клиентское приложение, которое можно использовать в качестве идентификатора.
Сейчас проект представляет собой сырую концепцию. Поэтому непонятно, в каком направлении он продолжит развиваться (и будет ли вообще). Хотя можно ожидать появления новых механизмов, которые помогут людям выделяться среди машин и ботов.
Больше интересного в нашем корпоративном блоге:
Комментарии (7)
OlegZH
22.04.2023 10:09+1Качественные данные — это данные, полученные известным хорошо документированным и сертифицированным способом. Нужна грамотная постановка измерительного эксперимента. Нельзя просто так взять какие-то данные, и что то в них найти. Найти можно что-то всегда. А нужно решать практические задачи. И тут сначала нужна постановка эксперимента. Поэтому всё должно начинаться с построения всевозможных моделей (объекта исследования, вычислительных алгоритмов и измерительных процессов). Чтобы иметь готовый скелет для реализации алгоритмов. И, вообще, методология работы. Вот с чёго надо начинать. С графов знаний. С наведения порядка. А мы (люди) даже не можем энциклопедию (Википедию) написать! Будем ждать, когда это за нас сделает ChatGPT? (Если это уже не реализовано внутри...)
Конечно, было бы крайне интересно в таком поучаствовать. Но хотелось бы начать с обобщений, моделей и... моделей баз данных. Ведь, надо, по существу заново изобретать способ представления информации в компьютере!
OBIEESupport
22.04.2023 10:09Что давным-давно сделано на идейном уровне. Только поставщиками БД, которые сбежали из страны. Building, Using, and Managing the Data Warehouse (Data Warehousing Institute Series from Prentice Hall Ptr)
fabela_arbaro
22.04.2023 10:09А как новый проект соотносится с уже существующим ЦЕРНовским https://about.zenodo.org/?
AndrewShmig
По теме статьи - начал относительно недавно разрабатывать платформу для обмена структурированными и неструктурированными данными - https://datahub.su
Есть возможность делиться данными, покупать и продавать. Репозитории данных могут содержать хранилища любого типа - MySQL, MongoDB, etc.
Несколько статей на Хабре в виде инструкций.
В целом, думаю, что совместная работа над данными для обучения выйдет на новый уровень. Конкуренция тоже вырастет, потому что разработать модель - это часть задачи, но обучение на качественных данных - другая сторона медали.
vassabi
а как вы проверяете, что продающий - это А) настоящий владелец данных и Б) имеет право их продавать в том виде в котором он их продает ? (например медицинские данные можно продававать только после обезличивания, усредняя данные и т.д.)
fedorro
В) Что это вообще настоящие данные, а не сгенерированные рандомом другой сеткой данные)
vassabi
ну, это-то хоть можно продавать - там только обман покупателя, а не секир-башка от разных проверяющих органов.