Павел Клеменков, NVIDIA: Мы стараемся уменьшить разрыв между тем, что data scientist умеет, и тем, что он должен уметь / forpes.ru

Главная
Павел Клеменков, NVIDIA: Мы стараемся уменьшить разрыв между тем, что data scientist умеет, и тем, что он должен уметь

Павел Клеменков, NVIDIA: Мы стараемся уменьшить разрыв между тем, что data scientist умеет, и тем, что он должен уметь +11

17.04.2020 07:16

skoooorik 1 2500 Источник

Стартовал второй набор студентов магистерской программы по data science и business intelligence Ozon Masters – а чтобы решиться оставить заявку и пройти онлайн-тестирование было проще, мы расспросили преподавателей программы о том, чего стоит ожидать от обучения и работы с данными.

Chief Data Scientist NVIDIA и преподаватель курса по Big Data и Data Engineering Павел Клеменков рассказал о том, зачем математикам писать код и два года учиться в Ozon Masters.

— Много ли вообще компаний, которые используют алгоритмы data science?

— На самом деле немало. Довольно много крупных компаний, у которых есть реально большие данные, либо начинают с ними эффективно работать, либо уже давно работают. Понятно, что половина рынка использует данные, которые поместятся в Excel-табличку или могут быть посчитаны на большом сервере, но говорить о том, что бизнесов, умеющих работать с данными, единицы — нельзя.

— Расскажи немного о проектах, где применяется data science.

— Например, во время работы в Рамблере мы делали рекламную систему, работающую по принципам RTB (Real Time Bidding) — нам нужно было строить много моделей, которые бы оптимизировали закупку рекламы или, например, могли предсказать вероятность клика, конверсию и так далее. При этом рекламный аукцион генерирует очень много данных: логи запросов площадки к потенциальным покупателям рекламы, логи показов рекламы, логи кликов – это десятки терабайт данных в день.

Причем для этих задач мы наблюдали интересное явление: чем больше данных даешь для обучения модели, тем выше ее качество. Обычно на определенном количестве данных качество прогноза перестает улучшаться, и для дальнейшего повышения точности нужно использовать принципиально другую модель, другой подход к подготовке данных, фичей и так далее. Здесь мы заливали больше данных и качество росло.

Это типичный кейс, где аналитикам приходилось, во-первых, работать с большими data-сетами, чтобы как минимум провести эксперимент, и где нельзя было обойтись небольшим семплом, который помещается в уютном макбуке. При этом нам нужны были распределенные модели, потому что иначе их невозможно было обучить. С внедрением компьютерного зрения в продакшен такие примеры встречаются все чаще, поскольку картинки – это большой объем данных, а чтобы обучить большую модель, нужны миллионы картинок.

Тут же возникает вопрос: как хранить всю эту информацию, как ее эффективно обрабатывать, как использовать распределенные алгоритмы обучения – фокус с голой математики смещается в сторону инженерии. Даже если ты не пишешь код в продакшен, нужно уметь работать с инженерными инструментами, чтобы провести эксперимент.

— Как изменился подход к вакансиям data science за последние годы?

— Большие данные перестали быть хайпом и стали реальностью. Жесткие диски стоят достаточно дешево, а значит, появилась возможность собирать вообще все данные, чтобы в будущем их хватило для проверки любых гипотез. В итоге знание инструментов для работы с большими данными становится очень востребованным, и, как следствие, появляется все больше вакансий именно data-инженеров.

В моем понимании, результат работы data scientist’а не эксперимент, а продукт, который дошел до продакшена. И как раз с этой точки зрения, до появления хайпа вокруг больших данных процесс был проще: инженеры занимались машинным обучением для решения конкретных задач, а с доведением алгоритмов до продакшена не возникало проблем.

— Что нужно, чтобы оставаться востребованным специалистом?

— Сейчас в data science пришло много людей, которые выучили математику, теорию машинного обучения, участвовали в конкурсах по анализу данных, где предоставляется готовая инфраструктура: данные очищены, метрики определены, и при этом нет требований к тому, чтобы решение было воспроизводимым и быстрым.

В результате плохо подготовленные к реалиям бизнеса ребята приходят на работу, и образуется пропасть между новичками и опытными разработчиками.

С развитием инструментов, позволяющих собрать собственную модель из готовых модулей — а такие решения уже есть у Microsoft, Google и многих других — и автоматизации машинного обучения, этот разрыв станет еще более явным. В перспективе в профессии будут востребованы серьезные исследователи, придумывающие новые алгоритмы, и сотрудники с развитым инженерным скилом, которые будут внедрять модели и автоматизировать процессы. Как раз курс Ozon Masters по data-инженерии заточен на то, чтобы развивать инженерные скиллы и умение использовать распределенные алгоритмы машинного обучения на больших данных. Мы стараемся снизить разрыв между тем, что data scientist умеет, и тем, что он должен уметь на практике.

— Зачем математику с дипломом идти учиться в бизнес?

— Российское сообщество data science пришло к пониманию, что скилл и опыт очень быстро конвертируются в деньги, поэтому, как только у специалиста появляется практический опыт, его стоимость начинает очень быстро расти, самые скиловые люди стоят очень дорого — и это справедливо на текущем моменте развития рынка.

Большая часть работы data scientist’а заключается в том, чтобы пойти в данные, понять, что там лежит, проконсультироваться с людьми, которые отвечают за бизнес-процессы и генерируют эти данные — и только потом их использовать для построения моделей. Чтобы начать работать с большими данными, крайне важно иметь инженерные скиллы — так гораздо легче обходить острые углы, которых в data science много.

Типичная история: ты написал запрос на SQL, который исполняется с помощью framework Hive, работающего на больших данных. Запрос обрабатывается за десять минут, в худшем случае — за час-два, и часто, получая выгрузки этих данных, ты понимаешь, что забыл учесть какой-то фактор или дополнительную информацию. Тебе приходится заново отправлять запрос и ждать эти минуты и часы. Если ты гений эффективности, то займешься другой задачей, но, как показывает практика, гениев эффективности у нас мало, и люди просто ждут. Поэтому на курсах мы будем уделять много времени эффективности работы, чтобы изначально писать запросы, которые работают не два часа, а несколько минут. Этот скилл кратно увеличивает производительность, а вместе с ней и ценность специалиста.

– Чем Ozon Masters отличается от других курсов?

— В Ozon Masters преподают сотрудники Ozon, и задания основаны на реальных бизнес-кейсах, которые решаются в компаниях. На самом деле, кроме недостатка инженерных скиллов, у человека, который выучил data science в университете, есть еще одна проблема: задача бизнеса формулируется на языке бизнеса, а его цель достаточно проста: зарабатывать больше денег. И математик хорошо знает, как оптимизировать математические метрики — но найти показатель, который будет коррелировать с бизнес-метрикой, сложно. И нужно понимать, что ты решаешь бизнес- задачу, вместе с бизнесом формулировать метрики, которые можно математически оптимизировать. Этот скилл приобретается за счет реальных кейсов, и их дает Ozon.
И даже если отбросить кейсы, то в школе преподает множество практиков, которые решают бизнес- задачи в реальных компаниях. В итоге сам подход к преподаванию все-таки более практико ориентированный. По крайней мере, на своем курсе я буду стараться смещать фокус на то, как применять инструменты, какие существуют подходы и так далее. Вместе со студентами мы будем разбираться в том, что для каждой задачи есть свой инструмент, а у каждого инструмента есть область применимости.

— Самая известная программа обучения анализу данных, конечно, ШАД — в чем отличие конкретно от неё?

— Понятно, что ШАД и Ozon Masters, помимо образовательной функции, решают локальную задачу подготовки кадров. Топовые выпускники ШАДа в первую очередь рекрутируются в Яндекс, но загвоздка в том, что Яндекс в силу своей специфики — а он большой и создавался, когда хороших инструментов работы с большими данными было мало — имеет собственную инфраструктуру и инструменты для работы с данными, а значит, придется осваивать их. У Ozon Masters другой посыл – если ты успешно освоил программу и Ozon или одна из 99% других компаний пригласит тебя на работу, начать приносить пользу бизнесу будет существенно легче, приобретенный в рамках Ozon Masters скиллсет будет достаточным, чтобы просто начать работать.

— Курс длится два года. Почему на это нужно тратить столько времени?

— Хороший вопрос. Долго, потому что по содержанию и уровню преподавателей это цельная магистерская программа, требующая много времени на освоение, и в том числе на домашнюю работу.

С точки зрения моего курса, ожидать, что ученик будет тратить на задания 2-3 часа в неделю — обычное дело. Во-первых, задания выполняются на учебном кластере, а любой общий кластер, подразумевает, что им пользуются одновременно несколько людей. То есть, придется подождать, чтобы задачка начала выполняться, какие-то ресурсы могут отобрать и передать в более приоритетную очередь. С другой стороны, любая работа с большими данными отнимает много времени.

Если у тебя есть еще вопросы о программе, работе с большими данными или инженерных скиллах — в субботу, 25 апреля в 12:00, у Ozon Masters онлайн день открытых дверей. Встречаемся c преподавателями и студентами в Zoom и на YouTube.

Комментарии (1)

dim2r
17.04.2020 22:52
#21511478
-1
Сделайте upgradable GPU, чтобы можно было докупать памяти.