HeatWave ML полностью автоматизирует обучение моделей, логические выводы и интерпретацию.
Для сравнения: машинное обучение с HeatWave в 25 раз быстрее Amazon Redshift, что в итоге получается на 99% дешевле!
Недавно Oracle объявила, что Oracle MySQL HeatWave теперь поддерживает встроенные в базу данных возможности машинного обучения (ML) в дополнение к ранее доступным средствам обработки транзакций и аналитики — это единственная облачная служба баз данных MySQL, поддерживающая такую возможность. MySQL HeatWave полностью автоматизирует жизненный цикл машинного обучения и сохраняет все обученные модели в базе данных MySQL, тем самым устраняя необходимость переноса данных или модели в инструмент или функцию машинного обучения. Пропуская этапы ETL (извлечение, преобразование и загрузка) снижается сложность приложений, уменьшается стоимость и возрастает безопасность как данных, так и самой модели. HeatWave ML включен в облачную службу базы данных MySQL HeatWave во всех 37 регионах Oracle Cloud Infrastructure (OCI).
До недавних пор добавление средств машинного обучения в MySQL-приложения было чрезмерно сложным и отнимало много времени у разработчиков. Первая причина - это сам процесс извлечения данных из одной базы данных в другую систему для создания и развертывания моделей машинного обучения. При этом подходе создается несколько разрозненных хранилищ для применения машинного обучения к данным приложения, что приводит к задержке при перемещении данных. Это также подразумевает распространение данных из базы данных, что делает ее более уязвимой для угроз безопасности и усложняет для работу разработчиков необходимостью программирования в различных средах. Вторая причина заключается в ожидании существующих сервисов, что разработчики должны быть экспертами в управлении процессом обучения модели машинного обучения; в противном случае модель будет недостаточно оптимальна, что снижает точность предсказаний. Наконец, большинство существующих решений машинного обучения не включают функции, объясняющие, почему модели, которые создают разработчики, дают определенные предсказания.
MySQL HeatWave решает эти проблемы, по умолчанию интегрируя средства машинного обучения в базу данных MySQL, при этом исчезает необходимость ETL данных в другие службы. HeatWave полностью автоматизирует процесс обучения и создает модель с лучшим алгоритмом, оптимальными характеристиками и гиперпараметрами для заданного набора данных под конкретную задачу. Все модели, созданные с помощью HeatWave ML, могут предоставлять интерпретацию моделей и предсказаний.
Ни один другой вендор облачных баз данных не предоставляет таких продвинутых средств машинного обучения именно внутри самой службы баз данных. Oracle опубликовала ML-бенчмарки выполненные для большого количества общедоступных наборов данных классификации и регрессии машинного обучения, таких как Numerai, Nomao и Bank Marketing, среди прочих. В среднем, на самом маленьком кластере HeatWave ML обучение моделей ML происходит в 25 раз быстрее Redshift ML, что экономит для нас 99% затрат. Кроме того, по сравнению с Redshift ML преимущество увеличении производительности особенно заметно, когда обучение проводится на более крупном кластере HeatWave. Обучение — это трудоемкий процесс, и, поскольку с помощью MySQL HeatWave его можно выполнять очень эффективно и быстро, клиенты теперь могут чаще переобучать свои модели учитывая неизбежные изменения данных. Это поддерживает актуальность моделей и повышает точность предсказаний.
“Подобно тому, как мы интегрировали аналитику и обработку транзакций в единую базу данных, теперь мы внедряем машинное обучение в MySQL HeatWave", — сказал Эдвард Скревен (Edward Screven), главный корпоративный архитектор Oracle. “MySQL HeatWave — один из самых быстрорастущих облачных сервисов Oracle. Все больше клиентов переходят с Amazon и других облачных служб баз данных на MySQL HeatWave и получают значительное повышение производительности и снижение затрат. Сегодня мы также анонсируем ряд других инноваций, которые расширяют возможности HeatWave, повышают доступность и снижают стоимость. Наши новые и полностью прозрачные бенчмарки снова демонстрируют, что Snowflake, AWS, Microsoft и Google значительно медленнее и дороже, чем MSQL HeatWave”.
В сравнении с другими облачными службами баз данных HeatWave ML предлагает следующие возможности:
Полностью автоматизированное обучение модели: все этапы создания модели с помощью HeatWave ML полностью автоматизированы и не требуют участия разработчиков. В результате мы получаем настроенную модель, которая является более точной, не требует никакого ручного вмешательства, а процесс обучения всегда завершен. Другие сервисы облачных баз данных, такие как Amazon Redshift, обеспечивают интеграцию средств машинного обучения во внешних сервисах, что требует от разработчиков обширного ручного ввода данных в процессе обучения машинному обучению.
Интерпретация модели и результатов. Интерпретация модели помогает разработчикам понять поведение модели машинного обучения. Например, если банк отказывает клиенту в займе, банк должен иметь возможность определить, какие параметры модели учитывались, или если модель содержит какие-либо ошибки выборки. Интерпретация предсказаний — это набор методов, которые помогают ответить на вопрос, почему модель машинного обучения сделала конкретное предсказание. Интерпретация предсказаний в наши дни очень существенны, поскольку компании должны быть в состоянии объяснить решения, принятые их моделями машинного обучения. HeatWave ML объединяет как интерпретации модели, так и интерпретации предсказаний как часть процесса обучения модели. В результате все модели, созданные с помощью HeatWave ML, могут предлагать модели, а также интерпретацию результатов без необходимости обучающих данных во время интерпретации результатов. Oracle, в свою очередь, расширила уже существующие методы интерпретации для улучшения производительности, интерпретируемости и качества. Другие сервисы облачных баз данных не предлагают таких широких возможностей интерпретации для всех своих моделей машинного обучения.
Настройка гиперпараметров: HeatWave ML реализует новый алгоритм уменьшения на основе поиска градиента для настройки гиперпараметров. Это позволяет выполнять поиск гиперпараметров параллельно без ущерба для точности модели. Настройка гиперпараметров — наиболее трудоемкий этап обучения модели машинного обучения, и эта уникальная возможность дает HeatWave ML значительное преимущество в производительности по сравнению с другими облачными сервисами по созданию моделей машинного обучения.
Выбор алгоритма: HeatWave ML использует понятие прокси-моделей — простых моделей, проявляющих свойства сложной модели — для определения наилучшего алгоритма ML для обучения. Используя простую прокси-модель, выбор алгоритма происходит очень эффективно без потери точности. Никакие другие службы баз данных для построения моделей машинного обучения не имеют такой возможности прокси-моделирования.
Интеллектуальная выборка данных: Во время обучения модели HeatWave ML выбирает небольшой процент данных для повышения производительности. Эта выборка выполняется таким образом, что все точки репрезентативных данных фиксируются в наборе выборочных данных. В других облачных сервисах для построения моделей машинного обучения используется менее эффективный подход — случайная выборка данных, при которой производится выборка небольшого процента данных без учета характеристик распределения данных.
Выбор признака: Выбор признака помогает определить критерии обучающих данных, которые влияют на поведение модели машинного обучения во время предсказания. Методы выбора признаков в HeatWave ML были обучены на широком наборе данных из различных областей и приложений. Из этой собранной статистики и метаинформации HeatWave ML может эффективно идентифицировать соответствующие фичи в новом наборе данных.
В дополнение к средствам машинного обучения Oracle выпустила дополнительные инновации для службы MySQL HeatWave. Адаптация в реальном времени позволяет клиентам увеличивать и уменьшать размер своего кластера HeatWave до любого количества узлов без простоев или времени только для чтения, а также без необходимости вручную перебалансировать кластер. Также включено сжатие данных, которое позволяет клиентам обрабатывать в два раза больше данных в узле и снижает затраты почти на 50 процентов при сохранении того же соотношения цены и качества. И наконец, новая фича “пауза и возобновление” - позволяет клиентам приостанавливать HeatWave для экономии средств. После возобновления как данные, так и статистика, необходимые для MySQL Autopilot, автоматически перезагружаются в HeatWave.
Успех клиентов и партнеров MySQL HeatWave
Astute Business Solutions является ведущим партнером Oracle Cloud MSP. “Недавно у нас появилась возможность использовать средства машинного обучения HeatWave ML. Мы нашли его очень инновационным, простым в использовании, очень быстрым и, самое главное, безопасным, поскольку данные или модель не покидают базу данных”, — сказал Арвинд Раджан, соучредитель и генеральный директор Astute Business Solutions. “Мы считаем, что обеспечение машинного обучения в базе данных представляет значительный интерес для наших клиентов и еще больше ускорит распространение MySQL HeatWave”.
Estuda.com — образовательный SaaS-провайдер для тестирования школьников K-12 в Бразилии. “MySQL HeatWave повысила производительность наших сложных запросов в 300 раз, обеспечив ответы за считанные секунды, и на 85 % дешевле по сравнению с Google BigQuery без изменений кода. Теперь мы можем лучше предоставлять аналитику в режиме реального времени для трех миллионов пользователей и постоянно улучшать наше приложение для повышения успеваемости учащихся”, — сказал Витор Фрейтас, соучредитель и технический директор Estuda.com.
VRGlass — бразильский SaaS-производитель приложений и оборудования метавселенной для корпоративных клиентов. “Вдохновленные успехами, достигнутыми в рамках программы Oracle для стартапов, компания VRGlass перенесла все данные приложений из AWS EC2 в MySQL HeatWave. В течение трех часов мы добились 5-кратного увеличения производительности базы данных для виртуального ивента, в котором приняли участие более одного миллиона посетителей и 1,7 миллиона сеансов, с большей безопасностью и стоимостью в два раза меньше”, — высказался Омар Такла, генеральный директор VRGlass.
Genius Sonority — дизайнер, разработчик и оператор видеоигр в Японии. “Мы обнаружили, что производительность MySQL HeatWave увеличилась в 90 раз, что решило все наши проблемы, в том числе и проблемы, связанные с перемещением данных для проведения анализа в реальном времени. Это было большим сюрпризом для нас. Экстремальные улучшения производительности помогают нам постоянно улучшать игровой процесс, чтобы клиенты по всему миру получали больше удовольствия от игр”, — сказал Масаюки Кавамото, директор и CTO Genius Sonority.
Neovera — надежный поставщик управляемых решений в области кибербезопасности уже более 20 лет. “MySQL HeatWave на OCI повысила производительность наших запросов в 300 раз при снижении TCO на 80% по сравнению с нашей локальной средой базы данных MySQL. Теперь мы можем получать аналитические отчеты в режиме реального времени в нашей базе данных OLTP, чтобы улучшить наше приложение по безопасности”, — сообщил Арман Роулз, старший архитектор баз данных Oracle, Neovera Inc.
“Oracle анонсировала MySQL HeatWave с Autopilot в августе прошлого года, что, возможно, стало самой большой инновацией в облачных базах данных с открытым исходным кодом за последние 20 лет”, — сказал Карл Олофсон, вице-президент по исследованиям программного обеспечения для управления данными, IDC. “Теперь Oracle вышла за рамки своего первоначального объединения OLTP и OLAP в HeatWave с MySQL HeatWave ML. Oracle переносит всю обработку и модели машинного обучения в базу данных, чтобы клиенты не только избегали управления базами данных машинного обучения отдельно от основной базы данных, но и избавлялись от проблем, связанных с ETL, получая при этом скорость, точность и экономичность”.
Дополнительные ресурсы
Посмотрите трансляцию Oracle Live с Эдвардом Скревеном
Запустите свои собственные бенчмарки
Посмотрите видео с пояснениями к MySQL HeatWave.
Прочтите дополнительную информацию, включая бенчмарки TPC-DS* в блоге
Прочтите техническую документацию MySQL HeatWave ML
* Запросы для бенчмарка основаны на бенчмарке TPC-DS, но результаты несопоставимы с опубликованными результатами бенчмарков TPC-DS, поскольку они не соответствуют спецификации TPC-DS.
Уже сегодня в 20:00 в OTUS состоится открытое занятие «Индексы MySQL». На этом вебинаре:
Разберемся в типах индексов, плюсах и минусах (преимущества и недостатки индексов, виды и возможности индексов).
Обсудим, как создавать, удалять и мониторить индексы для оптимизации БД.
Ответим на вопросы: как MySQL хранит индексы, как работают индексы, что такое статистика.