Big Data и Machine learning — это не просто модные словечки, а технологии, которые уже применяются и влияют на бизнес крупнейших компаний. Потребность в крутых специалистах растет, их зарплаты могут нам только сниться, а значит — пора бы разобраться в теме. Мы поможем: посмотрим на хайповые профессии, расскажем, где учиться и как построить карьеру в области больших данных.



Что это вообще такое?


Представьте, что у вас есть магазин в котором продается колбаса и хлеб. Вам известно: количество посетителей в день и что они купили. Нужно придумать, как из этих данных извлечь пользу для бизнеса. Например, узнать в какое время клиенты чаще покупают хлеб, а в какое – колбасу, чтобы обеспечить/увеличить наличие этих товаров на полках. В небольшом магазине с проходимостью 50 человек в день, можно находить связь вручную. А когда у вас супермаркет с тысячами ежедневных посетителей и миллионным ассортиментом, применяют машинное обучение, а данные становятся большими.



Машинное обучение — совокупность методов искусственного интеллекта, используемых для автоматизации обработки данных. Здесь применяют принципы информатики и статистики для создания моделей, которые строят прогнозы на основе массивов данных. Специалисты Machine Learning создают алгоритмы, которые принимают данные и используют статистику для прогнозирования в заданном диапазоне.

Хорошо, какие специалисты нужны?


Junior Data Scientist

Начинающий дата саентист занимается аналитикой небольших данных. На этом этапе научитесь писать SQL-запросы и работать с базой данных, обработкой небольших файлов и интерпретировать результаты. Средняя зарплата начинающих специалистов составляет от 60-70 тысяч рублей в месяц, неплохо!

Data Scientist/Data Analyst

В этой роли к анализу данных прибавляется умение предобработки массивов. Опытный дата анатилик работает с терабайтами данных, формирует их в кластеры и обрабатывает в Hadoop. После магических действий и танцев с бубном, Data Scientist интерпретирует результаты. Пример такой вакансии можно посмотреть тут. Если года три вы уже анализировали тонны информации, то можете смело себя в роли дата саентиста. Опытный специалист получает 100-150 тысяч рублей в Москве, но можно встретить цифру 200 тысяч.

Big Data Engineer

Эти ребята строят саму архитектуру хранилищ данных. Они не занимаются обработкой и ничего не анализируют, а следят за тем, чтобы данные надежно хранились, легко сегментировались и регулярно бэкапились. Их задача строить системы хранилищ: чтобы ничего не пропадало, нормально искалось и вовремя бэкапилось! Компании готовы платить такому специалисту в диапазоне 160-250 тысяч рублей.

Machine Learning Engineer

Матлаб форева! Эти специалисты занимаются построением нейросетей для обучения компьютера. Их главная задача — написание алгоритмов для автоматизации обработки данных и получения корректных выводов. Средняя з/п в Москве 100 000 – 250 000 руб.

Business Intelligence Analy?st

В этой роли видят руководителя с аналитическими способностями. BI обрабатывает данные и создает стратегический анализ бизнес-процессов. Анализируя информацию, он может сделать выводы и предложить рекомендации по улучшению бизнес-модели компании. Несмотря на прямую связь с бизнесом, средняя зарплата у таких специалистов 100 000 – 160 000 руб.



Что нужно знать?


Из базовых знаний, которые вы получили в университете, пригодится статистика, аналитика, теория вероятностей и хорошая математическая база. Всё это нужно, чтобы строить алгоритмы, по которым компьютер будет обрабатывать данные.

Для обработки массивов никаких космических навыков не требуется, но без хорошего знания программирования не обойтись. Для математических вычислений и построения алгоритмов пригодятся Python и R. Эти высокоуровневые языки наиболее удобны для работы с данными, вычислениями и анализом информации.

Большие данные распределены по тысяче серверов. Поэтому чтобы быстро находить необходимые пакеты и выгружать массивы из баз, придется писать SQL-запросы. Например, смотрите вакансию разработчика SQL в Big Data и убедитесь. Без знаний в SQL не получится устроится даже джуниором. Поэтому не ленитесь: начните штурмовать книги и больше практики!



Обучать машину вы будете не учебником по высшей математике с бубном в руках. Нужно уметь строить нейронные сети в Matlab, чтобы сделать систему самообучаемой.

Главным инструментом в работе с Big Data считается Hadoop MapReduce. Это бесплатный инструмент, который помогает работать с аналитикой. Иногда может требоваться Spark – выполняет схожие задачи с Hadoop. Для работы со Spark, нужно уметь кодить на Java или Scala. Тут всё зависит от того, какая технология компании больше нравится. Вот еще одна вакансия для примера: BigData DevOps.

Ок, где учиться?


Мы просмотрели десятки вакансий и во многих так и написано, что круто бы вам иметь сертификаты с coursera, edX, Khan Academy, Stepik и других образовательных платформ. Поэтому собрали полезные курсы, которые помогут получить навыки, необходимые для работы с большими данными и просто получить более широкое представление об этом непонятном мире:

Big Data Orientation: Microsoft Professional Program

Курс от преподавателей Microsoft, по которому обучаются их специалисты в больших данных. Подойдет для начинающих: найдете вводные уроки про форматы данных, технологиях обработки и основы работы с базами данных.

Analyzing Big Data with Microsoft R

Про обработку данных с помощью R (кэп!). Изучите структуры данных, внесений изменений и составление готовых наборов для дальнейшей обработки. Научитесь писать сводные функции, визуализировать данные с помощью пакета ggplot2, создавать модели прогнозирования и оценивать их эффективность.

Программирование на Python

Русскоязычный курс по Python от Института биоинформатики, подойдет для начинающих: разберетесь с базовыми функциями, будет много практики (домашка наше всё) и даже получите обратную связь по сделанным работам.

Big Data Analysis with Apache Spark

Переходим к самому интересному! Подробно объяснят зачем нужен Apache Spark и как с его помощью анализировать данные, как изучать наборы данных, применять log-поиск, распознавать текстовые файлы и фильтровать базы.

Hadoop. Система для обработки больших объемов данных

Бесплатный курс от Mail.ru. Расскажут про современные методы хранения данных, обработку Big Data и обрабатывать массивы в Hadoop. Узнаете, чем занимается Hadoop — инженер и может даже попробуете!



И еще несколько полезных платформ, которые помогут получить больше практики и подружиться с большими данными:


DataQuest

Платформа для практического изучения Python. Будете рассматривать занятные практические проблемы, от потребления алкоголя в мире до структуры секретных документов ЦРУ.

DataCamp

Тут наберетесь практики в решении задач на R: будете решать задачки на обработку данных, вспомните основы статистики и попробуете визуализировать результаты.

Блоги по теме


FlowingData — посвящен решению проблем в исследовании данных. Найдете решения задач на разные тематики и примеры визуализации. Обязательно загляните!

CrossValidated — коммьюнити аналитиков, типа StackOverflow для специалистов Big Data/Data Scientist. Пригодится для поиска ответов на вопросы по статистике, машинному обучению и всего, что связано с обработкой данных.

И держите большущую подборку книг по теме на русском языке. Гораздо удобнее читать проверенную литературу и знать, что изучаете действительно полезные вещи и не тратите время зря. Проверено сообществом :)

Скромные напутственные слова


Если решитесь окунуться в мир больших данных, от вас потребуются адские труды, много упорства и большой интерес к происходящему. Не бойтесь сделать шаг на пути к перспективным технологиям, даже если кажется, что ничего не выйдет. Пройдите пару курсов, решите задачи, поучаствуйте в соревновании — и попробуйте откликнуться на вакансию в хорошей компании. В общем, пилите биг дату!

Комментарии (2)


  1. BOOTor
    17.11.2017 08:49
    -1

    Странно, хорошая обзорная статья. Мне всегда было интересно — что же такое BigData? Тут все на доступном языке для «любителей» расписано. Но почему-то пост в минусах…


  1. imanushin
    17.11.2017 10:34

    Зачем вы перепечатали свои вакансии?


    Что это вообще такое?

    Big Data — это объем данных, с анализом и обработкой которых не может справиться один сервер уровня выше среднего. Т.е. база на 10 Тб — это просто много данных. Индекс гугла 15 лет назад (расположенный на кластере из серверов, с дублированием и т.д.) — это Big Data.


    придется писать SQL-запросы

    Нет. SQL — это много данных. Не Big Data, а просто много данных. И большая база. Click House/KDB с 100 Тб места — это Big Data (или, по крайней мере, её нижняя граница).


    Обучать машину вы будете не учебником по высшей математике с бубном в руках. Нужно уметь строить нейронные сети в Matlab, чтобы сделать систему самообучаемой.

    А это тут причем? И откуда вообще такие утверждения?


    Лучше уберите этот пост. Если хочется перепечатать вакансии — сделайте это на своем сайте. Или просто держите в черновиках.