Стартовала вторая неделя AWS re:Invent. И снова много новинок и улучшений, теперь в области машинного обучения. Самые важные — в нашем обзоре. Сегодня их будут активно обсуждать в русскоязычном twitch-стриме эксперты AWS, которые что-то уже поюзали и теперь делятся впечатлениями от новинок. Ссылка на twitch — в конце статьи.
Теперь на Amazon SageMaker проще и быстрее обучать большие модели и обрабатывать большой объем данных. Новый продукт Distributed training on Amazon SageMaker позволяет производить распределенное обучение и поддерживает параллелизм как по данным, так и по моделям. Изменения в коде для этого требуются минимальные. Теперь можно легко разбить данные на части и производить обучение на разных GPU. Также можно разбить саму модель так, чтобы для обучения использовалось несколько GPU. Это полезно для больших моделей, которым одного GPU не достаточно.
Подробнее тут
Модели машинного обучения часто представляют собой черный ящик. Трудно понять почему модель выдала тот или иной результат. Amazon SageMaker Clarify поможет понять работу моделей и факторы, повлиявшие на каждый конкретный результат. Это особенно важно для аудита моделей.
Кроме того, данные могут быть не сбалансированы. Исторические данные, на которых обучаются ML модели, неполны и часто предвзяты. Например, если раньше люди в определенном возрасте брали мало ипотечных кредитов, то модель, обученная на таких данных, может и в будущем отказывать людям этого возраста в ипотеке. Что только подкрепит предвзятость. Amazon SageMaker Clarify позволяет определять такого рода несбалансированность и предвзятость в данных. Благодаря этому модели начинают работать лучше для всех.
Подробнее тут
Amazon SageMaker Debugger — удобный инструмент для отладки и профилирования моделей, сбора и анализа данных об обучении, создания отчетов и визуализации метрик. В этом году SageMaker Debugger получил множество обновлений, а также полностью переработанный пользовательский интерфейс.
Детали тут
Amazon SageMaker JumpStart позволяет быстро развернуть готовое решение или ML модель. Уже доступно 15 решений для таких задач как распознавание рукописного текста, предсказание спроса, определение мошенничества и злонамеренных пользователей, а также многого другого. Кроме того, SageMaker JumpStart позволяет в несколько кликов развернуть одну из 150 ML моделей с открытым исходным кодом из TensorFlow Hub и PyTorch Hub.
Подробности тут
Набор инструментов (MLOps) для превращения ваших умных устройств в edge smart devices, которые смогут запускать модели, обученные в облаке, собирать телеметрию и отправлять примеры данных обратно в облако для переобучения. Также Amazon SageMaker Edge Manager поможет отслеживать состояния вашего флота устройств и производить обновление моделей, оптимизированных с помощью SageMaker Neo.
SageMaker Edge Agent — это небольшой рантайм, размещающийся на устройстве и умеющий запускать модели, собирать телеметрию и отсылать примеры данных обратно в облако.
SageMaker Neo — это инструмент оптимизирующий ваши модели для маломощных устройств, уже включен в рантайм агента.
SageMaker Edge Dashboards помогут контролировать состояния ваших устройств, дрифтинг моделей.
Подробнее тут
Теперь тренировать модели и делать inference можно прямо в SQL запросах к Redshift, благодаря интеграции с SageMaker AutoPilot, который подготовит данные и выберет наиболее подходящий алгоритм. А все дальнейшие предсказания уже можно делать, используя ресурсы кластера RedShift не выгружая данные из него.
Это облегчает процесс работы с данными для разработчика или аналитика и убирает такие шаги, как выгрузка данные в промежуточное хранилище, запуск процесса обучения, хостинг модели и процесс предсказаний.
Подробнее
Amazon Neptune ML — это новая функция для управляемых баз данных на базе графов — Amazon Neptune. Построенная с использованием Deep Graph Library, она помогает улучшить точность вплоть до 50% по сравнению с другими библиотеками и алгоритмами, которые не специализируются на источниках данных в виде графов.
Amazon Neptune ML умеет предсказывать как на уровне вершин (missing nodes, classification node) так и на уровне ребер (weight regression).
Новый сервис, автоматически определяющий аномалии в ваших бизнес-метриках и не требующий навыков в разработке и машинном обучении. Сервис умеет подключаться к таким источникам данных, как: Salesforce, Marketo, Google Analytics, Slack, Zendesk и многим другим.
Он может быть использован для мониторинга, нахождения и оповещения об аномалиях, а также способен показывать потенциальную причину аномалии на таких данных, как: просмотры веб страниц, скорость оттока клиентов, активные пользователи за день (DAU), транзакции, установки мобильных приложений и многих других.
Компания Playrix уже получила доступ к preview и опробовала данные сервис для анализа своих данных.
“We experimented with our user acquisition data to understand how the service works and it quickly identified and grouped anomalies enabling us to work faster and better,” — Михаил Артюгин, Технический Директор в Playrix.
Подробнее тут
Сегодня пройдет очередной русскоязычный twitch-стрим, теперь по новинкам в области машинного обучения. Напоминаем, что проходят стримы в ключевые дни AWS re:Invent. Стримы готовят и проводят ведущие solution архитекторы AWS, которые выбирают все самое интересное и полезное из новинок и анонсов многочасовой конференции. Для тех, кто еще не подключался — ссылка на регистрацию.
Еще по теме:
AWS re:Invent. Главные анонсы первого дня (Part 1)
AWS re:Invent. Главные анонсы первого дня (Part 2)
AWS re:Invent 2020, Keynotes — Analytics + Networking
Distributed training on Amazon SageMaker
Теперь на Amazon SageMaker проще и быстрее обучать большие модели и обрабатывать большой объем данных. Новый продукт Distributed training on Amazon SageMaker позволяет производить распределенное обучение и поддерживает параллелизм как по данным, так и по моделям. Изменения в коде для этого требуются минимальные. Теперь можно легко разбить данные на части и производить обучение на разных GPU. Также можно разбить саму модель так, чтобы для обучения использовалось несколько GPU. Это полезно для больших моделей, которым одного GPU не достаточно.
Подробнее тут
Amazon SageMaker Clarify
Модели машинного обучения часто представляют собой черный ящик. Трудно понять почему модель выдала тот или иной результат. Amazon SageMaker Clarify поможет понять работу моделей и факторы, повлиявшие на каждый конкретный результат. Это особенно важно для аудита моделей.
Кроме того, данные могут быть не сбалансированы. Исторические данные, на которых обучаются ML модели, неполны и часто предвзяты. Например, если раньше люди в определенном возрасте брали мало ипотечных кредитов, то модель, обученная на таких данных, может и в будущем отказывать людям этого возраста в ипотеке. Что только подкрепит предвзятость. Amazon SageMaker Clarify позволяет определять такого рода несбалансированность и предвзятость в данных. Благодаря этому модели начинают работать лучше для всех.
Подробнее тут
Amazon SageMaker Debugger
Amazon SageMaker Debugger — удобный инструмент для отладки и профилирования моделей, сбора и анализа данных об обучении, создания отчетов и визуализации метрик. В этом году SageMaker Debugger получил множество обновлений, а также полностью переработанный пользовательский интерфейс.
Детали тут
Amazon SageMaker JumpStart
Amazon SageMaker JumpStart позволяет быстро развернуть готовое решение или ML модель. Уже доступно 15 решений для таких задач как распознавание рукописного текста, предсказание спроса, определение мошенничества и злонамеренных пользователей, а также многого другого. Кроме того, SageMaker JumpStart позволяет в несколько кликов развернуть одну из 150 ML моделей с открытым исходным кодом из TensorFlow Hub и PyTorch Hub.
Подробности тут
Amazon SageMaker Edge Manager
Набор инструментов (MLOps) для превращения ваших умных устройств в edge smart devices, которые смогут запускать модели, обученные в облаке, собирать телеметрию и отправлять примеры данных обратно в облако для переобучения. Также Amazon SageMaker Edge Manager поможет отслеживать состояния вашего флота устройств и производить обновление моделей, оптимизированных с помощью SageMaker Neo.
SageMaker Edge Agent — это небольшой рантайм, размещающийся на устройстве и умеющий запускать модели, собирать телеметрию и отсылать примеры данных обратно в облако.
SageMaker Neo — это инструмент оптимизирующий ваши модели для маломощных устройств, уже включен в рантайм агента.
SageMaker Edge Dashboards помогут контролировать состояния ваших устройств, дрифтинг моделей.
Подробнее тут
Amazon Redshift ML
Теперь тренировать модели и делать inference можно прямо в SQL запросах к Redshift, благодаря интеграции с SageMaker AutoPilot, который подготовит данные и выберет наиболее подходящий алгоритм. А все дальнейшие предсказания уже можно делать, используя ресурсы кластера RedShift не выгружая данные из него.
Это облегчает процесс работы с данными для разработчика или аналитика и убирает такие шаги, как выгрузка данные в промежуточное хранилище, запуск процесса обучения, хостинг модели и процесс предсказаний.
Подробнее
Amazon Neptune ML
Amazon Neptune ML — это новая функция для управляемых баз данных на базе графов — Amazon Neptune. Построенная с использованием Deep Graph Library, она помогает улучшить точность вплоть до 50% по сравнению с другими библиотеками и алгоритмами, которые не специализируются на источниках данных в виде графов.
Amazon Neptune ML умеет предсказывать как на уровне вершин (missing nodes, classification node) так и на уровне ребер (weight regression).
Amazon Lookout for Metrics
Новый сервис, автоматически определяющий аномалии в ваших бизнес-метриках и не требующий навыков в разработке и машинном обучении. Сервис умеет подключаться к таким источникам данных, как: Salesforce, Marketo, Google Analytics, Slack, Zendesk и многим другим.
Он может быть использован для мониторинга, нахождения и оповещения об аномалиях, а также способен показывать потенциальную причину аномалии на таких данных, как: просмотры веб страниц, скорость оттока клиентов, активные пользователи за день (DAU), транзакции, установки мобильных приложений и многих других.
Компания Playrix уже получила доступ к preview и опробовала данные сервис для анализа своих данных.
“We experimented with our user acquisition data to understand how the service works and it quickly identified and grouped anomalies enabling us to work faster and better,” — Михаил Артюгин, Технический Директор в Playrix.
Подробнее тут
Русскоязычная Twitch-сессия
Сегодня пройдет очередной русскоязычный twitch-стрим, теперь по новинкам в области машинного обучения. Напоминаем, что проходят стримы в ключевые дни AWS re:Invent. Стримы готовят и проводят ведущие solution архитекторы AWS, которые выбирают все самое интересное и полезное из новинок и анонсов многочасовой конференции. Для тех, кто еще не подключался — ссылка на регистрацию.
Еще по теме:
AWS re:Invent. Главные анонсы первого дня (Part 1)
AWS re:Invent. Главные анонсы первого дня (Part 2)
AWS re:Invent 2020, Keynotes — Analytics + Networking