На конференции IBM Insight 2015 было сделано сразу несколько интересных анонсов. Основное — это продолжение развития идеи поддержки проекта Apache Spark. IBM запускает IBM Analytics on Apache Spark, при этом облачной платформой служит Bluemix. Напомним, что в июне корпорация IBM заявила о намерении инвестировать в проект более 300 миллионов долларов за несколько лет. Кроме того, ранее стало известно, что Apache Spark для Linux будет поддерживаться z Systems.
Такая поддержка будет осуществляться в рамках проекта «аналитика на мейнфреймах». Благодаря этому специалисты по дата-майнингу смогут использовать Apache Spark на мощных мейнфреймах z Systems.
Apache Spark будет работать не только как сервис на платформе Bluemix, систему также интегрируют и с другими облачными и аналитическими решениями, включая NoSQL-решение Cloudant и облачную платформу для хранения данных SashDB. Разработчики, используя Bluemix, смогут интегрировать свои проекты с аналитическими решениями и СУБД от IBM.
Вместе со Spark IBM предлагает еще и то, что получило название Insight Cloud Services. Это решение, позволяющее получать «внешние данные о людях, событиях, компаниях, бизнес-проектах из источников вроде Twitter и The Weather Company». Клиенты IBM смогут дополнять и расширять уже имеющуюся информацию с помощью Insight Cloud Services, а после проводить полноценный анализ собранного комплекса данных, используя Apache Spark.
Поскольку Spark поддерживает и машинное обучение, и распознавание естественных языков, и технологию обработки изображений, равно как и предлагает большое количество других возможностей, IBM рассматривает Spark также как полноценное окружение для работы с данными. К примеру, при помощи сервиса IBM Datacap, являющегося частью Insight Cloud Services, клиент может провести автоматическую классификацию и распознавание содержимого документа, включая его формат и структуру, текстовую и числовую информацию.
Компания считает свой инструмент весьма надежным, поэтому более пятнадцати собственных коммерческих и аналитических продуктов IBM переведены на Spark. Благодаря этому, например, удалось снизить количество строк кода в DataWorks с 40 до 5 миллионов.
Уже в недалеком будущем IBM будет расширять поддержку Apache Spark за пределы аналитики по всем направлениям собственного бизнеса.
0x0FFF
Печально. Похоже, что инвестиция в $300m делается не в Apache Spark как таковой, а в интеграцию Apache Spark с проприетарными продуктами IBM и портирование решений IBM на платформу Apache Spark. Переписать 40 миллионов строк DataWorks — не проблема, а вот сделать достаточный вклад в Apache Spark (около 400к строк кода всего), чтобы у IBM появился хоть один коммитер — уже намного сложнее.
В целом же статья чисто маркетинговая, порадовали «распознавание естественных языков» (имелось в виду наверное NLP?), «технологию обработки изображений» (а вот тут уже нужно «распознавание», плюс такой технологии нет в Spark), «компания считает свой инструмент весьма надежным» (ага, свой).