В глобальной экономике все более широкое распространение получают цифровые технологии, в основе которых лежат данные. Но чтобы воспользоваться всей мощью данных, необходимо разработать алгоритмы, модели и системы, дающие возможность извлекать из данных знания и пользоваться ими.

Системы машинного обучения (МО) успешно применяются в различных областях, таких как распознавание изображений, обнаружение объектов и машинный перевод. В типичных архитектурах машинного обучения для обработки поступающей первичной информации применяются модели, обученные в частных или публичных облаках на данных собранных из разных источников. Эти модели, развертываемые в облаке или на границе сети, открывают принципиально новые возможности во многих областях, включая здравоохранение, сельское хозяйство, розничную торговлю, транспорт и т. д. Решения искусственного интеллекта (ИИ) привлекают триллионы долларов в глобальной экономической деятельности.

Данные для централизованных решений по машинному обучению собираются в вычислительном центре: именно там происходит их разработка, а затем обучение и тестирование моделей МО. При этом у централизованного подхода есть ряд проблем как технического, так и социально-экономического характера. Владение данными, безопасность и конфиденциальность – все эти факторы могут препятствовать передаче и накоплению огромного объема данных, необходимого для машинного обучения моделей. Кроме того, стоимость централизованной инфраструктуры, необходимой для размещения и обработки собранных данных, может быть недопустимо высокой.

Требуется альтернативное решение. Это решение должно адаптироваться ко все более распределенному характеру данных, рассматривая это, как преимущество. Результаты работы таких моделей должны быть сравнимы по точности с полученными в системах централизованного обучения, однако по ряду параметров, включая безопасность, отказоустойчивость и задержки, такое решение должно быть более совершенным.

Для решения этой проблемы мы разработали новую технологию – роевое обучение.

Роевое обучение – это децентрализованное решение по машинному обучению, использующее вычислительные ресурсы, расположенные либо непосредственно в самих распределенных генераторах данных, либо максимально близко к ним, и опирающееся на безопасность блокчейна. При децентрализованном обучении на границе сети происходит как обучение модели, так и работа обученной модели. Именно на границе сети данные наиболее свежие, а своевременные решения, принятые на основе полученных данных, наиболее востребованы. В полностью децентрализованной архитектуре между участвующими системами машинного обучения производится обмен не необработанными данными, а только извлеченными из данных знаниями, поэтому значительно повышается безопасность и конфиденциальность данных.

Роевое обучение принципиально изменяет парадигму вычислений машинного обучения: вычисления производятся рядом с данными. Благодаря сохранению безопасности и конфиденциальности открываются новые возможности сотрудничества и модели монетизации, выходящие за границы организаций.

Введение

В основе нашей экономики лежат данные. Они поступают от повсеместно используемых датчиков, вычислительных систем и сетей. В различных отраслях, включая здравоохранение, сельское хозяйство, розничную торговлю, транспорт и прочие, каждую секунду образуются петабайты, а то и эксабайты данных. При этом истинная ценность данных заключается в знаниях, которые «спрятаны» в глубине данных, если эти знания позволяют принимать своевременные решения и извлекать прибыль.

Данные обычно собираются в вычислительном центре, в публичном или частном облаке, где эти данные используются для обучения статистических моделей или моделей машинного обучения. После обучения можно развернуть модели в облаке или на границе сети, собрать новые входные данные и получить результат работы модели. Такая архитектура машинного обучения с агрегированием учебных данных называется централизованным машинным обучением.

Многие области применения машинного обучения, где в большинстве случаев применяется централизованный подход к обучению, оказали значительное влияние на множество аспектов нашей работы и жизни, привели к важным открытиям в области мобильности, образа жизни и промышленного производства. Мы празднуем триумф машинного обучения, но не должны забывать о новых технических и социально-экономических проблемах, а также, в частности, об их влиянии на то, как мы обрабатываем данные и извлекаем знания.

Формулировка проблемы

Одна из основных проблем централизованного подхода к обучению заключается в том, что данные все более и более физически распределены, что обусловлено распространением источников данных вокруг нас. Например, автономный автомобиль может быть оборудован лидаром, радаром, системами машинного зрения и множеством других датчиков, образующих петабайты данных каждый день. Данные образуются с беспрецедентной скоростью, в огромных объемах и в самых разных, далеких друг от друга местах, поэтому объединение всех этих данных в едином вычислительном центре, например в облаке, для централизованного машинного обучения – крайне сложная задача, способная свести к нулю все возможные преимущества. С другой стороны, наблюдается тенденция переноса вычислительных ресурсов (и, следовательно, алгоритмов анализа) ближе к данным. Подход с вычислениями на границе сети может открыть новые возможности для предоставления покупателям новых предложений и укрепления конкурентного преимущества, в особенности за счет сокращения задержек между данными и действиями на основе этих данных. Такие возможности заставляют нас изучать альтернативные архитектуры машинного обучения, способные работать с распределенными данными и эффективно пользоваться вычислительными ресурсами устройств на границе сети.

Второе препятствие на пути централизованного машинного обучения – конфиденциальность и безопасность данных. Этот вопрос всегда вызывает наибольшую озабоченность у государственных органов, коммерческих компаний и частных лиц. Объединение данных для централизованного обучения подразумевает перемещение данных. В процессе перемещения данные могут подвергаться различным атакам. Более того, объединение личных сведений о людях и их поведенческих привычках, записанных в различных источниках данных (включая истории болезни, историю посещения веб-сайтов, записи поездок на такси и программы тренировок), повышает уязвимость частной жизни людей. Даже если применяется маскировка и обезличивание таких данных [1].

Мы пытаемся вычленить знания из огромного объема личных и конфиденциальных данных, но нам нужен надежный способ защиты конфиденциальных данных частных лиц и коммерческих компаний. Такое решение должно пользоваться ресурсами, расположенными на границе сети, непосредственно там, где данные образуются и записываются. Система периметра должна обучаться на месте, без необходимости наличия связи с облаком.

Еще одно ограничение централизованного машинного обучения – модель владения данными. Во многих сценариях данные образуются большим количеством частных лиц или организаций и принадлежат им, однако сбор, очистку, анализ и монетизацию данных производит отдельная компания. Такой агрегатор обладает инфраструктурой для хранения данных и их обработки. Большую часть времени агрегатор также является администратором данными. Разделение на субъектов владения данными и субъектов доступа и распоряжения данными приводит к образованию монополий данных, из-за чего значительная часть прибыли, которую можно извлечь из данных, оказывается в кармане агрегатора.

Более того, когда владельцы данных уступают контроль над данными агрегаторам, открывается настоящий ящик Пандоры с точки зрения нарушения конфиденциальности, несмотря на любые соглашения владельцев и агрегаторов об использовании данных и о соблюдении конфиденциальности. Одним из таких примеров является недавний скандал, фигурантами которого стали социальная сеть Facebook и компания Cambridge Analytica.

Модель владения данными обладает неустранимыми изъянами, поэтому обмен данными за пределами организаций вызывает наибольшие затруднения для централизованного машинного обучения. Обычно организации обладают данными, относящимися к определенной отрасли, клиентской базе или географическому расположению. Если объединить такие ресурсы данных, можно извлечь значительно более полезные знания. Например, финансовые учреждения во всем мире понесли в 2017 году убытки от мошенничества с кредитными картами в размере 33,7 млрд долларов.

Текущие модели машинного обучения для обнаружения рисков разрабатываются каждым банком на собственных данных, поэтому количество ложноположительных срабатываний довольно высоко. Проведенное недавно исследование свидетельствует о том, что в 2017 году примерно 6,7 % (1 из 15) держателей банковских карт были затронуты ложноположительными срабатываниями систем борьбы с мошенничеством. В обучающих выборках для моделей систем обнаружения мошенничества количество примеров мошеннических операций обычно ограничено, из-за чего точность модели будет ограничена. Таким образом, использование распределенного обучения и обмен данными об операциях по кредитным картам между финансовыми учреждениями имеет большой потенциал с точки зрения повышения точности обнаружения мошенничества.

Децентрализованная архитектура, способная преодолеть эти затруднения, может оказать значительное влияние на развитие всей отрасли. Важность такого децентрализованного решения в определенной степени подтверждается объемом инвестиций в ИИ и влиянием ИИ на глобальную экономику. Например, компания McKinsey предполагает, что влияние только алгоритмов глубинного обучения на все отрасли к 2020 году будет оцениваться величиной от 3,4 до 5,7 трлн долларов. Компания IDC считает, что расходы на когнитивные системы и ИИ утроятся с 24 млрд долларов, прогнозируемых на 2018 год, до 77,6 млрд долларов в 2022 году. Что предполагает получение значительной прибыли. Согласно данным компании Deloitte, 82 % опрошенных компаний получили финансовую прибыль от вложений в ИИ.

Критерии успешного решения

Недостатки централизованного машинного обучения обусловлены именно централизованной архитектурой. Естественным образом напрашивается применение противоположного подхода – децентрализованного машинного обучения. В частности, нужен подход к децентрализованному машинному обучению со следующими атрибутами.

  • Действенность

Децентрализованная система машинного обучения должна обладать точностью, эффективностью и способностью обрабатывать распределенные данные.

Точность. Точность модели у такой системы должна быть близкой или такой же, как у системы с централизованным обучением, поскольку точность – главный показатель извлечения знаний из данных.

Эффективность. Важно рассматривать эффективность со систематической точки зрения и оценивать всю область применения. Система машинного обучения может охватывать передачу данных и параметров модели, обучение и тестирование модели, развертывание и периодические обновления. Для объективного сравнения нужно принимать во внимание не только временную эффективность, но и продуктивное использование существующих вычислительных и сетевых ресурсов, а также систем хранения данных.

Обработка распределенных данных. Децентрализованные системы машинного обучения должны эффективно обрабатывать распределенные данные путем правильного размещения нагрузок, координации работы равноправных систем и синтеза частичных результатов обучения для образования полной модели. Кроме того, сам алгоритм должен уметь работать с ограниченными или несбалансированными выборками данных. В обоих случаях это может быть весьма непросто, поскольку затрудняется согласование модели во время первичного и повторного обучения. Часто бывает, что данные с определенными атрибутами неравномерно распределены между источниками. Кроме того, объем данных может значительно различаться в разных распределенных источниках.

  • Безопасность

Для децентрализованного машинного обучения требуются функции безопасности, гарантирующие участие в обучении только после проверки подлинности: нужно защитить не только сами распределенные данные, но и параметры и веса модели. Для борьбы с несанкционированными участниками должен быть предусмотрен механизм их исключения. Доступ к данным должен предоставляться только в течение разрешенного периода и только для разрешенной цели. Кроме того, могут потребоваться дополнительные меры, чтобы скрыть сведения о модели машинного обучения.

  • Сохранность конфиденциальности

Один из доводов в пользу децентрализованного обучения – реализация более надежной конфиденциальности. Успешная децентрализованная система машинного обучения должна предоставлять владельцам данных более полный контроль над их конфиденциальными сведениями, а знания должны извлекаться из данных без нарушения конфиденциальности.

  • Отказоустойчивость

При централизованном подходе к машинному обучению есть риск единой точки отказа. У децентрализованного обучения такой риск отсутствует, но требуются средства повышения устойчивости систем: они должны быть рассчитанными на динамическое подключение и отключение распределенных ресурсов данных в процесс обучения модели.

В чём недостатки существующих решений?

За последнее десятилетие системы машинного обучения получили значительное развитие в промышленности и научных исследованиях. Были предприняты усилия по преодолению отдельных проблем централизованного машинного обучения. Тем не менее решения для всех основных проблем централизованного машинного обучения пока не существует.

И для федеративного обучения Google™ [2], и для алгоритмов эластичного усреднения SGD Facebook проводились исследования возможностей сотрудничества локальных решений для улучшения общей модели. В системах Google и Facebook единый сервер параметров осуществляет объединение всех данных и распределение задач для локального обучения. Такая архитектура с топологией «звезда» обладает очевидной единой точкой отказа, что приводит к снижению отказоустойчивости.

Помимо этого недостатка, с децентрализованными системами машинного обучения со множеством участников связывают еще одну, более серьезную проблему — выявление, наказание и исключение посторонних участников. Технические меры помогают обнаруживать посторонних участников и ограничивать их влияние, но обнаружение и восстановление систем занимает время. Чтобы обнаруживать такое злонамеренное поведение, нужно выйти за рамки строго технических мер: у каждого локального участника обучения не должно быть мотивации нарушать установленный порядок, поскольку это повлечет нежелательные последствия.

Для решения проблем с конфиденциальностью в работе Техасского университета в Остине и Корнеллского университета, а также Университета Карнеги-Меллона и корпорации Mitsubishi, к примеру, применяются алгоритмы учета конфиденциальности в многосторонних средах машинного обучения. Это важный шаг на пути к удовлетворению требований конфиденциальности в децентрализованных системах машинного обучения. Поскольку работа сфокусирована на проблеме повышения конфиденциальности, в ней не рассматриваются другие важные проблемы, встречающиеся в обработке распределенных данных у коммерческих компаний, такие как несбалансированные выборки данных, зависимые и идентично распределенные данные. Чтобы избежать возможной нагрузки по перетасовке и реорганизации распределенных данных, требуется децентрализованный подход, изначально разработанный для распределенных данных и способный поддерживать любые инициативы по укреплению конфиденциальности.

Кроме того, есть пробел в возможностях существующих платформ децентрализованного машинного обучения для приложений, используемых в коммерческих компаниях. Например, алгоритм федеративного обучения Google обрабатывает данные конечных пользователей в своей собственной экосистеме. Недавно появившийся принцип децентрализованного машинного обучения (Decentralized ML) [3] также ориентирован на конечных потребителей за счет применения машинного обучения с использованием коллективных ресурсов (краудсорсинга). Огромным потенциалом обладают полные решения децентрализованного машинного обучения для корпораций: в таких решениях вычислительные ресурсы объединены с системами хранения и данными. Это решение должно не только устранять конкретные проблемы коммерческих компаний, но и способствовать появлению новых бизнес-моделей для поощрения сотрудничества между компаниями.

Подход HPE к решению проблему – роевое обучение (Swarm Learning)

Роевое обучение – это вид децентрализованного машинного обучения на основе технологии блокчейна, разработанное специально для предоставления коммерческим компаниям возможности использовать всю мощь распределенных данных при сохранении конфиденциальности и безопасности информации. Роевое обучение использует вычислительные ресурсы, находящиеся непосредственно в распределенных источниках данных или рядом с ними, и обеспечивает безопасность с помощью технологии блокчейна. Для защиты конфиденциальности в решении производится обмен знаниями, добытыми из исходных данных, а не самими необработанными данными.

Платформа безопасности на базе блокчейна дает возможность присоединяться к децентрализованной сети обучения только полноправным участникам. Для каждой стороны действует смарт-контракт, описывающий условия участия и положенное вознаграждение. Смарт-контракт в роевом обучении поддерживает современные бизнес-модели. Вместе с платформой монетизации смарт-контракт также обеспечивает сотрудничество между организациями.

Представляем технологию децентрализованного обучения – роевое обучение

Роевое обучение – это платформа, позволяющая набору узлов (каждый узел обрабатывает часть обучающих данных локально) совместно обучать общую модель машинного обучения без обмена собственно учебными данными. Это достигается следующим образом: отдельные узлы обмениваются параметрами (весами), полученными при обучении модели на локальных данных. За счет этого узлы поддерживают конфиденциальность исходных данных.

Параметры, предоставленные всеми узлами, объединяются для получения глобальной модели. Более того, процесс объединения осуществляется не постоянным центральным координатором или сервером параметров, а временным ведущим узлом, динамически выбираемым среди всех активных узлов, поэтому сеть роя является децентрализованной. За счет этого обеспечивается гораздо более высокая отказоустойчивость, чем в традиционных платформах с серверами параметров. При использовании глобальной модели каждый узел получает в свое распоряжение все знания сети, при этом исходные данные не выходят за пределы узла.

Идея децентрализованного обучения опирается на две проверенные технологии: распределенное машинное обучение и блокчейн. Алгоритм распределенного машинного обучения применяется для обучения общей модели на множестве узлов с подмножеством данных, находящихся в каждом узле (в машинном обучении такой принцип называется парадигмой параллелизма по данным), но без центрального сервера параметров. Блокчейн наделяет систему функциями децентрализованного управления, масштабируемости и отказоустойчивости, чтобы платформа не ограничивалась рамками одной организации. Одновременно блокчейн реализует платформу криптовалюты, защищенной от фальсификации, которую участвующие стороны могут использовать для монетизации своих вкладов в общую модель.

Рабочий процесс роевого обучения

Рабочий процесс роевого обучения можно разделить на три основных этапа:

  1. Инициализация и сбор участников.

  2. Установка и настройка.

  3. Интеграция и обучение.

Все эти операции описаны ниже.

Инициализация и сбор участников

Подготовка – это организационный процесс: стороны, заинтересованные в реализации машинного обучения на базе роя, должны собраться и обсудить эксплуатационные и юридические требования к децентрализованной системе. В частности, необходимо оговорить такие аспекты, как соглашения о совместном использовании данных (параметров), соглашения об обеспечении видимости узлов за пределами границ организаций, а также соглашения о предполагаемых результатах процесса обучения модели. На этом этапе также оговариваются значения настраиваемых параметров роя, например узлы обнаружения участников, необходимые при старте системы, и частота синхронизации между узлами. Наконец, необходимо согласовать общую модель для обучения и систему вознаграждения (при необходимости).

Установка и настройка

По завершении процесса подготовки все участники консорциума загружают и устанавливают платформу роя на свои машины (узлы). На этом этапе также поставляется конфигурация сети роевого обучения, оговоренная на этапе инициализации и подготовки. Затем платформа роевого обучения загружается и инициирует подключение узлов к сети роя, которая представляет собой блокчейновую структуру, наложенную на сетевые подключения между узлами. Загрузка – это упорядоченный процесс, в котором набор узлов, назначенных в качестве узлов обнаружения участников (на этапе инициализации), загружается в первую очередь, после чего загружаются остальные узлы в сети.

Интеграция и обучение

Роевое обучение предоставляет набор простых API для быстрой интеграции с различными платформами. Эти API встраиваются в существующую кодовую базу для быстрого превращения автономного узла машинного обучения в участника роя. Процесс обучения модели можно разделить на следующие этапы (рисунок 1):


РИСУНОК 1. Этапы обучения модели
РИСУНОК 1. Этапы обучения модели

1. Регистрация

Процесс роевого обучения начинается с регистрации каждого узла в смарт-контракте роя. Это однократный процесс. Каждый узел последовательно записывает в контракте свои атрибуты, например универсальный код ресурса (URI), по которому другие узлы смогут загрузить набор рассчитанных на этом узле параметров.

2. Обучение локальной модели

После этого узлы обучают локальную копию модели в нескольких итеративных циклах; каждый такой цикл называется эпохой. Во время каждой эпохи каждый узел обучает свою локальную модель, используя один или несколько пакетов данных и фиксированное количество итераций. После прохождения заданного количества эпох узел экспортирует значения параметров в файл и отправляет этот файл в общую файловую систему, доступную для других узлов. После этого он оповещает другие узлы о готовности к этапу совместного использования параметров.

3. Раскрытие параметров

Этот этап начинается, когда количество узлов, готовых к этапу раскрытия параметров, достигает определенного минимального порогового значения, указанного при инициализации. Сначала выбирается ведущий узел эпохи, его роль заключается в объединении параметров, полученных после локального обучения на всех узлах. Этот выбор совершается очень быстро и происходит на заключительном этапе каждой эпохи.

На основании заранее определенного алгоритма выбора ведущего, один из узлов становится ведущим узлом. По ссылкам URI всех участников, он загружает файлы параметров из каждого узла, чтобы можно было перейти к этапу объединения параметров. Мы используем топологию «звезда», при которой объединение выполняет один ведущий узел. Также возможны и легко настраиваются другие топологии, например k-стороннее объединение, когда объединение проводится набором узлов.

4. Объединение параметров

После этого ведущий узел объединяет загруженные файлы параметров. Платформа поддерживает множество алгоритмов объединения: среднее, взвешенное среднее, медианное и т. д. Используя выбранный алгоритм, ведущий узел объединяет значения параметров из всех узлов, чтобы создать новый файл с объединенными параметрами, и оповещает другие узлы о доступности этого нового файла. После этого каждый узел загружает этот файл c ведущего узла и обновляет свою локальную модель новым набором значений параметров.

5. Проверка условия остановки

Наконец, узлы апробируют модель с обновленными значениями параметров на локальных данных, проверяя модель по различным критериям (вычисляет проверочные метрики). Значения, полученные на этом этапе, распространяются с помощью переменной состояния, обозначенной в смарт-контракте. Каждый узел, завершив этот этап, оповещает сеть о том, что шаг обновления и проверки завершен. В это время ведущий узел продолжает проверять поступление сигнала «Обновление завершено» от каждого узла. Обнаружив, что все участники объединения сообщили о завершении, ведущий узел объединяет показатели метрик от локальных проверок, чтобы вычислить общие показатели метрик. После этого этап синхронизации отмечается как завершенный.

Политика, определенная на этапе инициализации, поддерживает монетизацию при создании модели. На этом этапе вычисляется и раздается вознаграждение, соответствующее вкладу каждого участника. После этого текущее состояние системы сравнивается с условием остановки. Если это условие выполняется, процесс роевого обучения останавливается. В противном случае этапы обучения локальных моделей, публикация параметров, их объединение повторяются пока не будет выполнено условие остановки.

Архитектура роевого обучения

Архитектуру роевого обучения можно разделить на четыре уровня: API, управление, данные и монетизация. Компоненты являются модульными, поэтому технологии, использованные в их реализации, можно заменять, сообразуясь с конкретными требованиями. Вся платформа может работать как на стандартных, так и на высокопроизводительных машинах, также поддерживается разнородная инфраструктура в сети. Платформу можно развернуть в пределах одного центра обработки данных или в нескольких центрах обработки данных. Реализована встроенная поддержка отказоустойчивой сети, где узлы могут динамически выходить из сети роя и снова входить в нее без нарушения и замедления процесса построения модели.

На рисунке 2 показаны различные уровни роевого обучения с подробным описанием каждого из них:


РИСУНОК 2. Архитектура платформы
РИСУНОК 2. Архитектура платформы


В чём преимущества роевого обучения для вашего бизнеса?

Роевое обучение было задумано, чтобы решить дилемму лавинообразного распространения данных и ряд технических, общественных и экономических проблем, связанных с извлечением знаний из данных. Компании, внедрившие роевое обучение, получат следующие конкурентные преимущества.

Эффективность

Знания, содержащиеся в данных, невозможно получить бесплатно. В частности, централизованный подход машинного обучения, связанный с объединением данных в едином центре для обработки, сопряжен с высокими затратами на передачу данных и с вложениями в системы хранения данных и вычислительные мощности для обработки этих объединенных данных. В роевом обучении исключены затраты на передачу необработанных данных, поскольку обучение производится непосредственно в источниках данных или рядом с ними. Наши эксперименты свидетельствуют о том, что объем передаваемых параметров моделей может быть в тысячи раз меньше объема необработанных данных. За счет этого резко снижаются расходы на передачу данных и задержки с их обработкой.

Роевое обучение может дополнительно снизить эксплуатационные расходы, используя существующие системы хранения данных и вычислительные ресурсы, расположенные в источниках данных или рядом с ними. В этом случае нет необходимости вкладывать средства в главный центр обработки данных, локальный или облачный; не нужно платить за централизованное хранение и обработку объединенных данных, объем которых в централизованной среде машинного обучения может стремительно расти.

Соблюдение требований конфиденциальности и безопасности

Принятие и применение регламента GDPR (Общие положения о защите данных) – важная веха в развитии правовых механизмов защиты конфиденциальности данных. Компании во всем мире подвергаются строгим проверкам в отношении прозрачности и подотчетности используемых процедур обращения с данными клиентов. Несоблюдение нормативных требований отрицательно сказывается на имидже бренда и может повлечь серьезные санкции. Например, крупная компания в области социальных сетей недавно добилась досудебного урегулирования разбирательства с правительством США с выплатой беспрецедентно высокой суммы в 5 млрд долларов за нарушение конфиденциальности.

Роевое обучение помогает компаниям соблюдать все регламенты конфиденциальности и безопасности, предоставляя владельцам данных более полный контроль над доступом к данным и их использованием. Это достигается применением смарт-контрактов и исключением необходимости передавать необработанные данные. Строгое соответствие требованиям безопасности и конфиденциальности укрепляет уверенность клиентов, что, в свою очередь, приносит бизнесу больше прибыли.

Отказоустойчивость

В сравнении с централизованным подходом к обучению в роевом обучении децентрализованы как хранилища данных, так и сам процесс обучения. За счет этого исключается единая точка отказа, угрожающая бесперебойной работе бизнеса. Алгоритм роевого обучения отличается высокой эффективностью работы с ограниченными или несбалансированными выборками данных из различных источников. Смарт-контракт надежно обрабатывает ошибки, такие как потеря подключения источника данных к участникам роя.

Своевременное предоставление знаний

Роевое обучение обладает важнейшим преимуществом – снижением задержки между созданием данных и появлением полезных знаний, полученных из этих данных. В роевом обучении повторное обучение модели можно начинать, как только новые данные станут доступными в любом источнике данных. Полученные результаты обучения можно немедленно предоставить всем участникам роя, не дожидаясь передачи, объединения и последующего анализа данных в вычислительном центре. Чем короче путь от данных к знаниям, тем быстрее и точнее можно реагировать на меняющиеся условия рынка. Это – важное конкурентное преимущество.

Новые модели совместной работы и монетизации

Проводя четкую границу между необработанными данными и знаниями, содержащимися в этих данных, роевое обучение отделяет доступ к данным от владения данными. Это разделение вместе с переносом вычислений ближе к данным позволяет получить более полное представление о ценности данных.

Представьте себе мир, в котором личная или конфиденциальная информация всегда (без исключений) находится под непосредственным контролем гражданина или организации. Все службы, опирающиеся на эти данные, заключаются в контейнеры, получают разрешение владельца данных и переносятся к данным. При этом контракт четко описывает предоставление данных, порядок использования, длительность контракта и предполагаемое вознаграждение владельца данных. В этом случае контроль над личными или конфиденциальными данными переходит к владельцам данных, открывается совершенно новая модель сотрудничества при обработке данных и монетизации. Поскольку необработанные данные не выходят за пределы персональных устройств или организаций, продуманные инициативы приведут к образованию бизнес-моделей для совместной работы с данными в различных областях применения (как для конечных потребителей, так и для коммерческих компаний).

В каких областях можно применять роевое обучение?

Роевое обучение – это не только решение проблем, присущих централизованному машинному обучению. Это мощнейший инструмент, позволяющий раскрыть недооцененные возможности, связанные с распределенными данными и расположенными рядом с ними вычислительными ресурсами. Решение роевого обучения может применяться в самых разных отраслях. Мы покажем преимущества этого решения в нескольких сценариях использования.

Здравоохранение

Представьте, что существует три института по исследованию рака груди: один в США, второй в Европе, третий в Азии. Каждый из них обладает собственным, ограниченным набором данных в этой области. У этих исследовательских институтов общая цель: повысить эффективность диагностирования рака груди путем разработки и обучения модели машинного обучения. Поскольку объем данных в каждом институте ограничен, а распределение может иметь демографические отклонения, институтам нужно наладить управляемый обмен данными. В идеале нужно обмениваться только информацией о раке груди.

Однако такая готовность сотрудничать и укреплять здоровье всего человечества сталкивается со значительным риском нарушения нормативных требований при использовании централизованного машинного обучения. При существующих регламентах, действующих для медицинских карт пациентов в соответствующих странах, даже простое получение разрешения на обмен необработанными данными и их передачу в общий вычислительный центр (который находиться за рубежом по отношению к двум из трех институтов) может быть невыполнимой задачей.

При роевом обучении риск нарушения нормативных требований сводится к минимуму, поскольку исключается передача необработанных данных. Не данные передаются в вычислительный центр, а вычислительные ресурсы реализуются рядом с данными. Смарт-контракт между исследовательскими институтами устанавливает правила извлечения, обмена и получения информации из соответствующих наборов данных. Сотрудничество между институтами четко определено, осуществляется по строгим правилам и надежно отслеживается. Таким образом, институты могут сосредоточить больше ресурсов на исследовательском сотрудничестве вместо эксплуатационных издержек.

Городская мобильность

Урбанизация – общемировая тенденция. Увеличение плотности населения городских районов сопряжено с повышением загруженности дорог. Попутчики, автономные автомобили, автомобили с подключением к Интернету и «умные города» – все эти усилия призваны решить проблемы мобильности с различных ракурсов. Для решения проблемы городских дорожных пробок требуется комплексный подход, включающий широкий набор сведений: маршруты поездок жителей на работу, информацию о дорогах и погоде, сведения о публичных и частных меропри-ятиях. Интеллектуальная модель, располагающая всей этой информацией, сможет лучше прогнозировать интенсивность движения и оптимизировать планирование транспортных ресурсов. Как своевременно и без чрезмерных затрат консолидировать всю эту информацию в централизованной системе машинного обучения? Это либо крайне сложно, либо вовсе невозможно.

Вернемся на шаг назад. Даже если вся эта информация доступна для централизованной системы машинного обучения, достаточно ли точно мы рассмотрели проблему, чтобы предложить оптимизированное и эффективное решение? Мы считаем, что здесь отсутствует ключевой элемент, способный в полной мере обрисовать гибкие возможности выбора людей и механизм их вознаграждения, с помощью которого мы могли бы влиять на их выбор и повышать общую производительность системы.

Например, если в вечерний час пик на шоссе возникает пробка, вы согласитесь уйти с работы на 10 минут позже, чтобы снизить нагрузку на дорогу? Вряд ли. А изменится ли ваше решение, если при согласии вы получите право бесплатного проезда по платной магистрали на следующее утро, что позволит вам сэкономить 20 минут поездки? Если вознаграждение убедит вас принять предложение, представьте, как будет формироваться дорожное движение, если индиви-дуальные предложения с подобным выбором можно предоставить миллионам городских жителей децентрализованно и в реальном времени. Роевое обучение может предоставить именно такую возможность.

Роевое обучение с децентрализованной архитектурой и системой вознаграждений – оптимальный механизм для решения комплексных системных проблем со взаимодействием с людьми или организациями. При этом не только решается проблема конфиденциальности и безопасности обмена данными, но и предоставляется возможность управлять индивидуальным или коллективным поведением. В сравнении с существующими интеллектуальными системами, основными задачами которых являются моделирование и прогнозирование, роевое обучение может замкнуть круг и вывести интеллектуальные системы на совершенно новый уровень обучения, действия и развития.

Сотрудничество в открытом космосе

Роевое обучение обладает беспрецедентными преимуществами для областей применения, в которых перемещение и консолидация большого объема данных для централизованного обучения невозможны из-за высоких затрат и длительных задержек. Ничто не демонстрирует этого преимущества роевого обучения лучше, чем сотрудничество в дальнем космосе, где источники данных машинного обучения расположены очень далеко друг от друга и от эффективных средств центрального координирования.

По мере того как мы изучаем все более дальние рубежи Вселенной, исследовательским кораблям потребуется брать с собой большие объемы данных. Проблемы обучения из источников данных, разделенных такими расстояниями, выходят далеко за пределы вопросов надежности, доступности, пропускной способности и стоимости каналов связи. Задержки – это фундаментальная преграда, которую мы не можем преодолеть. Например, задержка при обмене информацией между Марсом и Землей может достигать 40 минут. Такая значительная задержка может оказать решающее значение для успеха или неудачи всего полета. При полете космической эскадры к Марсу было бы практичнее использовать роевое обучение между космическими кораблями, которые будут находиться относительно близко один от другого, чем отправлять данные на Землю с гигантской задержкой.

Заключение

В современной цифровой экономике важным преимуществом является способность быстро и точно реагировать в зависимости от полученных данных. Недорогое и надежное роевое обучение, сочетающее децентрализованное машинное обучение с технологией блокчейна, дает возможность коммерческим компаниям сократить задержки между получением данных и действием на основе добытых из них знаний. Внедрение роевого обучения открывает новые возможности сотрудничества и монетизации собираемых данных. Корпорация Hewlett Packard Enterprise намерена открыть этот новый рубеж вместе с нашими партнерами и заказчиками.