Новое исследование EPFL и INRIA показывает, что наши мобильные устройства могут выполнять обучение моделей самостоятельно, являясь частью распределённой сети и не раздавая наши данные технологическим компаниям.
Каждый раз, когда мы читаем новости в Интернете или ищем, где можно перекусить, технологический «Большой Брат» собирает огромное количество данных о нашем поведении.Google и Facebook, например, говорят, что они делают это, чтобы улучшить их сервисы и персонализировать нашу жизнь в онлайне.
Искусственный интеллект транснациональных компаний отфильтровывает новости, чтобы на выходе получить статьи, которые, по мнению компаний, будут интереснее для вас, предлагает видео, похожее на те, которые вы смотрели раньше, или помогает вам найти ресторан, основываясь на тех ресторанах, которые понравились вам. И вот другая сторона медали: данные используются, в том числе, для рекламы, нацеленной прямо на вас, и они могут быть переданы третьим лицам, – вот почему вопросы цифровой безопасности так важны.
Исследования, проведённые в Лаборатории распределённых вычислений и Лаборатории масштабируемых вычислительных систем (Distributed Computing Laboratory и Scalable Computing Systems Laboratory), входящих в состав Школы вычислительных и коммуникационных наук (School of Computer and Communication Sciences) (IC) EPFL и государственный институт исследований в информатике и автоматике (INRIA) Франции, показали, что машинное обучение, то есть выполнение компьютерных алгоритмов, которые работают всё лучше и лучше благодаря опыту, который они накапливают – возможно на наших мобильных устройствах, в режиме реального времени; без ущерба функциональности и без необходимости делиться с кем-то нашими данными.
Совместная лаборатория EPFL/INRIA, представляет FLeet – революцию в распределённом машинном обучении с сохранением данных только на устройстве (federated learning, федеративное обучение) – глобальную модель, обученную с помощью обновлений, вычисленных на мобильных устройствах. Данные при этом остаются только на устройствах. Федеративное машинное обучение очень привлекательно преимуществами в области конфиденциальности, но поскольку оно разработано таким образом, чтобы не влиять на энергопотребление и производительность мобильных устройств, оно не подходит для приложений, требующих частого обновления, например, для рекомендации новостей.
FLeet сочетает конфиденциальность стандартного федеративного обучения и точность онлайн-обучения благодаря двум основным компонентам: I-Prof – это новый легковесный профайлер, который прогнозирует и контролирует влияние задач обучения на устройство, и AdaSGD – устойчивый к отложенным обновлениям адаптивный алгоритм обучения.
Один из авторов статьи, профессор EPFL Рашид Геррауи (Rachid Guerraoui), напоминает, что сегодня наши смартфоны обладают как данными, так и питанием от батареи, которое позволяет выполнять федеративное машинное обучение.
«При помощи FLeet возможно, пока вы используете свой мобильный телефон, расходовать часть его мощности, чтобы выполнять задачи машинного обучения и при этом не беспокоиться о том, что может прерваться ваш звонок или поиск в сети. Иногда нам нужна информация в реальном времени. По этой причине важно, чтобы модель обучалась только когда вы спите, а ваш телефон заряжается.
Профессор Анна-Мари Кермаррек, также автор статьи, рассказывает: «Мы показали, что если сложим мощность телефонов вместе, они начнут составлять большую вычислительную мощность, которая будет соответствовать мощности Google, и это даст людям альтернативу – не полагаться на централизованные мощные компьютерные фермы». Это поистине коллективное обучение, когда локальные модели агрегируются и вносят вклад в глобальную модель, но вы не делитесь сырыми данными, защищая конфиденциальность, а это огромная мотивация для разработки архитектуры подобного рода».
Пока что FLeet – это прототип, который показывает возможности. Геррауи и Кермаррек говорят, что следующий шаг – продолжать работу над созданием удобного конечному пользователю продукта, а также исследовать другие аспекты дизайна FLeet, в том числе аспект защиты системы от возможных атак.
«Сегодня существует сильно выраженная тенденция – пытаться вернуть процессы машинного обучение пользователю, потому что, в конце концов, данные поступают от нас. Мы должны быть в состоянии решать, что происходит на наших собственных устройствах и с нашими собственными данными. Такие модели, как FLeet, дадут альтернативу большим техническим игрокам, если люди этого захотят», – заключила Кермаррек.
ni-co
Только я у видел нестыковку? " Распределенная система вычислений"… "… без необходимости делиться с кем-то нашими данными" :)
stranger777 Автор
Мне это тоже показалось странным: to be undertaken on our mobile devices in real time, without compromising their functionality, and without having to share our data. Дело, видимо, в том, что сырые данные пользователя остаются только на его устройстве и не хранится централизованно в централизованной модели. Иными словами, речь идёт прежде всего о том, чтобы не делиться личными данными, конечно же, вкладываясь при этом в модель.
gsaw
тут ты не делишься с конкретной фирмой своими данными, а с распределенной системой. Разница все же наверное есть. Или нейросеть натренированная на вас находится у компании и она может ею пользоваться для предсказания, понравится вам реклама или нет к примеру. Или нейросеть останется на вашем телефоне, хоть и для тренировки будет использоваться облако телефонов и будет вам фильтровать видосики с тик-тока по вашим предпочтениям.