Машинное обучение, облачные технологии, визуализация, Hadoop, Spark, масштабируемость, аналитика, терабайты, петабайты, быстрее, больше, надежнее, лучше — все эти слова каруселью крутятся в голове после трех дней в выставочном зале конференции Strata + Hadoop. И, конечно же, повсюду горы игрушечных слонов — главного символа конференции.

Мы с коллегами из DataArt и DeviceHive не только побывали на конференции, но еще и помогли друзьям из Canonical. На своем стенде они демонстрировали Juju — мощный инструмент, помогающий настроить и развернуть сервисы в облаке быстро и без проблем. Туда же мы принесли свое любимое демо — устройство для мониторинга промышленного оборудования. Никакого занудства и PowerPoint, все вживую — акселерометр SensorTag установили на вентилятор, чтобы отслеживать его вибрацию.



Чтобы симулировать вибрацию, мы приклеили кусок изоленты на одну из лопастей вентилятора. Это нарушило баланс и сделало всю конструкцию весьма неустойчивой. Данные с датчиков передавались на сервер DeviceHive в виде временного ряда, обрабатывались в Spark Streaming и отображались на красивых графиках. Всё это развернуто с помощью Juju, которая прекрасно интегрирована с Amazon Web Services (AWS).

При всем обилии компаний с крутыми продуктами, главной темой конференции стал, как мне кажется, Spark. Spark обсуждали, Spark учили, Spark запускали, Spark интегрировали. Spark был тут, Spark был там, Spark был везде. Практически все, независимо от масштаба компаний, делились опытом интеграции и использования Spark в своих продуктах.

Всего за несколько лет Spark показал себя великолепной платформой для обработки данных, машинного обучения и распределенных вычислений. Его среда постоянно расширяется, он меняет работу с данными и делает разработку быстрее.

Следующее поколение инструментов для аналитики наверняка будет так или иначе работать со Spark, что позволит компаниям использовать данные эффективнее. А следующее поколение инструментов для параллельных вычислений поможет бизнесу, инженерам и специалистам по обработке данных объединить усилия в разработке.

Разрабатывающая Spark компания Databricks представила свой новый продукт для анализа данных — интерактивную оболочку для создания Spark джоб, их запуска на кластере AWS, создания запросов и визуализации данных. Прибавьте к этому Spark Streaming и сможете запускать модели, работая с потоками данных в реальном времени. В то время как Databricks хостит главную страницу с пользовательским интерфейсом, данные и инфраструктура для запуска Spark размещаются на ваших AWS машинах. Интересно будет сравнить это все со Space Needle, которую Amazon обещают представить на re:Invent 2015 в Лас-Вегасе.

Очевидно, что работа с большими объемами данных требует не просто выбора конкретной базы данных или распределенной системы. Появляются целые платформы для разработки BigData технологий, и мир начинает мыслить в терминах этих платформ: наборы технологий и архитектурные шаблоны проектирования, которые разработаны совместно для решения разнообразных задач BigData. Платформы данных во многом определяют, как мы получаем доступ, храним, передаем, обрабатываем и ищем структурированные, неструктурированные и сенсорные данные. Отличным примером такой платформы является Basho Data Platform, где Basho использует свою базу данных Riak и делает её частью чего-то большего, чем просто хранилище ключ-значений.

Ключевые моменты самообразования:
  • Экспериментируйте с публичными данными в Spark.
  • Продолжайте изучать и использовать Scala.
  • Функциональное программирование.
  • Функциональное программирование.
  • Функциональное программирование.

Комментарии (0)