В соавторстве с Анной Перовой


Введение


Каждый день человечество создает, использует и хранит огромные объемы данных. Каждая статья, пост в блоге или instagram, каждый лайк да и вообще каждый факт коммуникации — данные, которые, будучи обработанными становятся ценными, приносят прибыль и предостерегают от рисков того кто ими владеет и умеет извлекать соответствующую информацию.


С ростом возможностей анализа данных и осознания полезности имеющихся архивов повышается и потребность в экспертах по Data Science, машинного обучения и искусственного интеллекта (AI), способных работать с данными и создавать на их основе полезные модели, а также, системы самостоятельно обрабатывающие данные и заставляющие их работать.


Почему тем, кто набирает команды в этой сфере необходимо задуматься о новых методах рекрутинга?


Как еще в 2015 году писали на TechCrunch, по мнению Mckinsey, которые, надо признать оказались не далеко от истины, 490 000 специалистов потребуется в этой области к 2018 году.


Если опираться на данные LinkedIn — из 236 миллионов профилей около 11 400-19 400 — профили Data Scientists.


Уже сейчас средние ежегодные инвестиции Amazon’s в AI Hiring — $227.8 million, в то время как инвестиции ключевого конкурента - Google в хайринг AI — $130.1 million. Специалисты в области искусственного интеллекта ведущих компаний получают от $100 000 до $500 000 в год. Об этом свидетельствуют данные опроса, который провел The New York Times, и в принципе проверяется периодически попадается либо на dice.com, либо на monster.com, либо на LinkedIn.


Область новая и в тренде. Количество и качество молодых специалистов не удовлетворяет высочайшей потребности в них во как всем мире, так и у нас в России — здесь ситуация отличается только порядком зарплат и пока — количеством открытых вакансий в области Data Science & AI.


По результатам анализа hh.ru количество открытых вакансий в области Machine Learning, Deep Learning, Data Science: более 1000. Количество готовых специалистов с необходимым опытом — не более 300. Кандидатов с хотя бы минимальным опытом в этой области AI, Data Science не подходящих под эти позиции — около 3 тысяч. И это само по себе является проблемой для поиска и найма так как:


  • c одной стороны действительно мало ценных специалистов;
  • c другой – много кандидатов, только начинающих свой путь в рассматриваемой области, в обучение которых (в случае найма) придётся вложится.

Все это приводит к чрезвычайно перегретому рынку труда, и при найме в этой области необходимо учитывать целый ряд факторов:


  • высочайшая конкуренция за таланты (зарплаты & условия) — вакансий больше, чем кандидатов, но требования к кандидатам высокие; примерная статистика: по 10-15 предложений вакансий на одного кандидата с опытом 3+ лет в Data Science & AI;
  • компании вынуждены быть более гибкими по зарплате, графику, дополнительным возможностям, в целом, распространено предпочтение гибкого графика, part-time, потребность в свободе для проявления креативности для поиска лучших подходов и решений;
  • кандидату важны проекты и задачи т.к. Data Scientist — зачастую имеет определенный личностный тип: аналитический склад ума, мотивация на интеллектуальное и профессиональное развитие, тяга к исследованиям, разнообразным задачам, любознательность и в месте с тем встречается некоторый индивидуализм и требовательность к признанию результатов;
  • компании тем не менее требуется сильная команда, способная выдавать результат в срок, в которой есть у кого учиться, вместе с кем создавать исследовательские проекты;
  • необходимы ресурсы и мощности, хорошее оборудование, GPU.

В связи с высокой конкуренцией за таланты в данной сфере возникает целый ряд вопросов по подбору, главные из которых:


  • Где найти AI & Data Science специалистов?
  • Как распознать? Как из небольшого круга кандидатов выбрать лучших или наиболее перспективных (которые быстро и с пользой пройдут обучение)? Какие должны быть критерии отбора для специалиста-Хедхантера?
  • Как не потерять? Как удержать AI & Data Science специалистов?

1. Где найти?


Кроме стандартных и известных всем источников, хотелось бы обратить внимание на наиболее результативные с точки зрения моего личного опыта найма AI & Data Science специалистов.


  • Slack, канал Open Data Science. Это ресурс не для рекрутеров и в основном предназначен для общения инженеров, специалистов в области Data Science.
    Что нужно сделать: разместите объявление в Slack в сообществе Open Data Science. Лучше попросить это сделать своих коллег — DS специалистов или Data инженеров, не скрывая уровень зарплат и возможностей для развития. Подчеркните особенности именно привлекательных задач и проектов, технологий, которые возможно использовать.


  • Соревнования Kaggle.
    Что нужно сделать: Отберите топ — 50-100 в соревнованиях Kaggle. Первые 20 обычно решают задачи для удовольствия, с удовольствием работают в крупных компаниях и не занимаются поиском работы. После первых 20 можно отобрать потенциальных кандидатов с высоким потенциалом в DataScience и AI, связаться с ними, предложить встречу и проект. В случае отказа, возможно запросить рекомендации, используя реферальную программу Вашей компании (подробно о хантинге с применением Kaggle можно задавать вопросы в личку, либо, если будет интерес — подготовим отдельный материал).


  • H-Index. Индекс Хирша, а скорее метод оценки/поиска кандидатов, который лучше использовать именно при поиске AI, ML/DL, Computer Vision, Data Science экспертов. Этот критерий позволяет оценить — кого из ученых и профессоров цитируют лучше, а кого — хуже и найти тех, кто специализируется в искомой профессиональной области и может стать гуру для молодых специалистов. Что нужно сделать: ищите Data Science и AI специалистов, используя открытые данные по индексу Хирша. Интересуйтесь темами, соответствующими Вашим задачам. Средний индекс для ученых разного уровня:
    1. молодой ученый, аспирант – 0-2;
    2. кандидат наук – 3-6;
    3. доктор наук – 7-10;
    4. член Диссертационного Совета – 10-15;
    5. ученый с мировым именем, председатель Диссертационного Совета – 16 и выше.

Полезный сайт для поиска кандидатов по индексу цитирования: eLIBRARY.ru.
На этом сайте размещены публикации российских ученых. Там размещено более 24 млн статей, база постоянно пополняется.
Один из главных лафхаков — зарегистрироваться на сайте, затем найти профессора с большим количеством публикаций с высоким уровнем цитирования, найти способ связаться с ним и попросить рекомендации соавторов и студентов. Как вариант — открыть публикации и связаться с соавторами через доступные социальные сети.
При найме ученых важно учитывать, что им может не хватать именно практических навыков, понимания бизнеса, но возможно, их научная карьера сможет быть полезной для развития наукоемких проектов, в том числе в облaсти AI.


  • Организуйте свое собственное соревнование по Data Science: хакатон, олимпиаду по программированию. Такие мероприятия делают AI Community, Open Data Science и др. Вы можете попробовать организовать и своими руками, но качество скорее всего пострадает.
    Пример хорошего соревнования: Sberbank Contest.


  • Запустите бесплатный обучающий курс по ML/Deep Learning- формат не важен. Главное, определитесь с тематикой и задачами, мониторя наиболее подходящих специалистов по результатам решения "домашних заданий". Для хорошей воронки, пригласите больше 50 наиболее перспективных. В итоге останется порядка 10-15, и не более 5 вы наймете, но сэкономите этим методом массу времени и сил.
  • Система внутренних рекомендаций. Назначить достойный реферальный бонус для внутренних сотрудников. Стимулировать их к рекомендациям.
  • Развивать свой AI нетворкинг. AI и Data Science сообщество и в России, и в мире пока очень невелико и активно общается на конференциях, легко получить рекомендации от гуру и спикеров, часто это даже возможно сделать бесплатно (OpenAITalks, Skolkovo Robotics, NIPS, ICLR etc.)

2. Как отобрать действительно хороших Data Science & AI специалистов


Для HR непросто разобраться сразу во всех понятиях, поэтому самое главное — хорошо понимать основные заголовки, чтобы хотя бы как-то ориентироваться. И действовать в соответствии с инструкцией (глава «ОКОНЧАТЕЛЬНЫЙ СПИСОК, или Принципы отбора кадров») — т.е. очень чётко сбалансировать сложность работы и испытаний финансовой и нефинансовой мотивацией.


Итак, для начала важно определиться с тем, что сейчас понимается под Data Scientist


Data Scientists используют статистические данные, машинное обучение и аналитические подходы к решению важнейших бизнес-задач. Их основная функция — помочь организациям превратить свои объемы больших данных в ценные и действенные модели.


Они должны хорошо знать математику, программировать, разрабатывать алгоритмы машинного обучения для автоматизации алгоритмов. Также от них ожидается высокая способность к интерпретации данных, важно умение их визуализировать, важны навыки решения проблем, даже если проблемы не сформулированы до конца.


Важно, чтобы они могли работать с различными видами данных и данными различного уровня готовности.


Хороший математический бэкграунд (знание линейной алгебры, аналитической геометрии, теории вероятности и математической статистики) — это обязательно. И это даже более важно для анализа данных, чем инженерные знания. Обучение ML моделей требует понимания, какие именно модели необходимо использовать, как интерпретировать и как улучшить полученные результаты.


Знание языков программирования: Python или R (но ориентироваться используемый у вас технологический стек); С/C++; Java
Навыки: Scala, Apache Spark, Hadoop, machine learning, deep learning, and statistics.
Дополнительно: Tensorflow, PyTorch, Keras, Caffe, Pandas etc., Jupyter, and RStudio., опыт работы с высоконагруженными системами, Cuda.


Отличие Data Scientists от Data Engineer — способность не только анализировать данные, но и интегрировать их в существующие системы. В связи с этим особенно важно глубокое знание языков программирования, а так же опыт создания или участия в создании высоконагруженных, многопоточных систем и т.п.


Ключевые понятия, с которыми желательно быть знакомым рекрутеру: Machine Learning, Deep Learning, Data Science, Data Mining, Big Data, Computer Vision, Image Processing, car recognition, face recognition, Recommendation systems, Natural Language processing, kaggle contests.


Фильтрация кандидатов на основе телефонного HR интервью:


  1. Важно понимать, насколько глубоки знания кандидата в области математики ( линейная алгебра, теория вероятности)
  2. Какие фреймворки использует? Приветствуется разнообразный опыт.
  3. Какие наиболее сложные проекты проекты приходилось создавать? Какова была личная роль и результат?
  4. В каких соревнованиях принимал участие?
  5. Есть ли статьи в научных журналах и здесь на habr.com?

Алгоритм рекрутинга и отбора кандидатов:


  1. Техническое интервью состоит из 3 частей:
    • Онлайн тестирование на 20 минут. Пример сайта для размещения онлайн теста.;
    • Тестирование — 1 час. Техническое интервью в офисе. Тестовое задание 20 мин-1 час. Можно создать тест из 10-15 задач ( задачи по теории вероятности, математической статистике, компьютерному зрению, машинному обучению). Тест выполняет кандидат один в переговорной комнате. Ему не обязательно решить все задачи, но важно решить хотя бы 50%. В тестировании полезно выставлять баллы для объективной оценки и возможности сравнить кандидатов;
    • Устная часть технического интервью — 1 час (обсуждение результатов задач по теории вероятности, математической статистике и анализ того, как кандидат походит к решению задач по компьютерному зрению, машинному обучению).

При этом надо понимать, что условия работы и прочие «плюшки» кандидату известны и честно озвучены заранее иначе пройти испытания мотивация будет не только лишь у всех.


  1. HR & Personality interview c Тимлидером
    Личностные черты, которые необходимо необходимые для DataScientist:
    • Высокая обучаемость Он должен быть умным, быстро приобретать новые навыки, быть готовым и постоянно развиваться в своей сфере и желательно в предметной области компании.
    • Любознательность, интерес к новым технологиям, практический опыт их использования, интерес к смежным областям.
    • Усидчивость и настойчивость — способность долгое время работать над одной проблемой
    • Креативность — интерес к новым возможностям, мотивация и способность придумывать новые решения.

Как удержать специалистов AI & Data Science в компании:


Здесь у стандартных инструментов удержания есть свои особенности.


  • Возможность работать с гуру, экспертом в Рынке AI в России или других странах, возможность писать PHD, делать совместные научные исследования;
  • Команда сильных профессионалов, у кого можно учиться и с кем интересно создавать AI проекты (ВУЗы Top-10, сотрудники из крупных-компаний лидеров рынка AI в России);
  • Возможность написать статью. Сделать исследование, и публикации для международных конференций ( NIPS, ICLR etc.);
  • Помощь в получении научной степени, включая международную;
  • Доступ к первоисточникам.

И общечеловеческие ценности:


  • Интересные задачи, возможность делать публикации;
  • Высокая зарплата, регулярный ее рост в соответствии с уровнем рынка;
  • Уважение. Включая доверие экспертизе, признание достижений в компании и научном сообществе (премии, премии за достижение результатов);
  • Хорошее оборудование, доступ к данным;
  • Информирование об изменениях — сотрудники должны быть в курсе дальнейших планов компании. Даже в крупной компании важно позаботиться о том, чтобы не держать их в неизвестности;
  • Забота о сотрудниках — регулярные опросы с возможностью получения честных ответов. Как улучшить жизнь сотрудников, помочь им быть более эффективными (фрукты в офисе, музыкальные инструменты, комната для релаксации, поздравление не только с днем рождения, но и с другими праздниками и др.).

В заключении стоит отметить, важно знать, что отличие этих вакансий от остальных — прежние методы рекрутинга для этих кандидатов работают не так эффективно. Важно соблюдать баланс между чрезвычайной нехваткой специалистов, готовностью быть более гибкими в условиях и необходимостью фильтровать и отбирать сильных профессионалов, способных сделать положительный вклад в изменения в бизнесе.

Комментарии (17)


  1. TiesP
    30.05.2018 08:39

    Занятно, но почему-то минусов у статьи пока больше. Возник такой вопрос: когда кандидата закроют одного в переговорной — ему можно для решения задач пользоваться какими-то своими записями, конспектами? У меня просто какой план… пройти курс по машинному обучению от "яндекс" и потом искать работу на минимальную зарплату из указанной вилки. Но ведь помнить всё нереально.


    1. Rumyantsev Автор
      30.05.2018 09:14

      Зависит от компании. Если задачки чисто теоретические — обычно нельзя. Если даётся задачка близкая к практике — обычно можно т.к. эмулируется реальная, хоть и стрессовая ситуация. В первую очередь смотрятся не заученное, а способность найти практически ценное решение.


  1. ChePeter
    30.05.2018 09:00
    +2

    А что такое "… международной PHD;"?


    1. Rumyantsev Автор
      30.05.2018 09:16

      Ошибка :) т.к. масло-маслянное. Исправил. Хотел сказать учёной степени, включая варианты за рубежом (phd) — поторопился.


  1. Rumyantsev Автор
    30.05.2018 09:16

    Ошибка :) т.к. масло-маслянное. Исправил. Хотел сказать учёной степени, включая варианты за рубежом (phd) — поторопился.


  1. ChePeter
    30.05.2018 10:35

    Есть еще грани о которых нужно сказать.
    Ум — создание нового, меня учили как то так. Умный, это способный создавать. Это как слух, голос, способность рисовать и т.д, Либо есть, либо нет, природа так создала.
    И есть грамотность — когда человек в курсе всех событий, фактов, прочел все статьи по интересующей его теме и знает все фичи, трюки и т.п. Это неоценимые сотрудники.
    И есть умение — питонщик 6 разряда, пальцы как у великих пианистов, но искрятся кодом. 1000 строк в час и без единой ошибки Это еще более ценные люди.
    Но решение о найме и потребности зависит от решаемой бизнесом задачи.
    Если вы хотите придать своему товару/услуге абсолютно новое качество и уделать конкурентов — без первого не обойтись. И глупо искать того, кто уже решил эту задачу, значит конкуренты уже далеко впереди. Нужно то решить задачу новую! Совсем новую.
    Если же хотите догнать и перегнать и всякие умники вызыват раздражение своими капризами — нанимайте умельцев. Они точно знают где в какой статье описана нужная проблема и её решение и где на гитхабе лежит нужный код. Они никогда не промахиваются в конкретную цель, но требовать от них новации не нужно — они сделают очередную кальку.
    Если же вы точно знаете свои алгоритмы ( и у вас есть супер бизнес идея), вы выкатываете в прод вашу супер мысль — питонщик незаменим. Тут не будет никакой отсебятины, никакой сервер никогда не будет падать и вы будете точно знать что происходит на вашем сайте и когда пора расширять дисковую полку.

    Поэтому когда читаешь в тексте вакансии, что требуется математик для поиска зависимостей там, где их никто не видит, но при этом он должет писать запросы SQL и админить кассандру на кластере и выкатить в боевой прод свой анализ — понимаешь, что это еще хорошо, могли ведь выложить платы, детали, паяльник и, давай, сам себе и комп собери. Скоро будет, малинки наберут мощи и начнется.

    Надеюсь этот взгляд на статью тоже будет полезен. Как дополнение.


    1. Rumyantsev Автор
      30.05.2018 15:10

      Полезен. Очень даже. Тут рассматривалась ситуация: а ну ка кадры — наймите мне подразделение Data Science ибо "модно, стильно, молодёжно" и побыстрее. А столкнутся рекрутёры с тем, что людей на рынке довольно много и надо найти тех, кто знает проблематику и тех кто может довести продукт до ПРОМа. Соотв. нужны те кто сможет решить новую задачу (вытаскиваются из учёной/учебной среды + разработчики), а если не можем так, то организуем конкурс в форме хакатона или открытого обучения.


      1. Archi_Pro
        31.05.2018 16:51

        Расскажу про дата саенс который модный молодежный и который делают что бы был а потом может и найдем как монетизировать
        2 инжа для сбора данных
        2 сантиста для построения предикативных моделек
        аналитик для покраски экселек в любимые цвета руководства
        Банк входящий в ТОП 15 банков РФ


        1. Rumyantsev Автор
          31.05.2018 17:22

          Так задачки-то разные бывают. Одно дело — прогнозировать фин.рез. или риски там, поскольку технологии б.м. понятны и примеров достаточно — можно обойтись небольшим количеством людей.
          Другое дело — обработка текстов — технологии в принципе есть, но есть особенности в том, чтобы заставить их заработать эффективно да и выбор между типами моделей, скажем, далеко не окончательный.
          Третье — CV или голосовые чат-боты — тут нет/не знаю технологического стека который можно взять и позаимствовать так, чтобы гарантировано работало нормально — писать всё равно придётся довольно много и не факт, что 5 человек хватит.


          Это к тому, что команду всё равно подбирать поз задачу придётся и если для понятных задач нужны профи, то для "непонятных" надо звать нормальных учёных на постояную, на контракт или грантовать кафедру ВУЗа — зависит от задачи.


          1. Archi_Pro
            31.05.2018 17:49

            голосовые чат боты в этой стране это Яндекс. Только в одной компании достаточно экспертизы и прочих ресурсов для создания голосового чат бота и то Алиса не агонь.
            Про NLP и прочее распознавание образов нужно бы сначала определится какую бизнес задачу это будет решать а уж потом думать над реализацией.
            Но хорошо что в России у компаний есть деньги на RnD и они готовы нанимать DS DE просто потому что цифровизация и это модно молодежно и вообще политика партии.


  1. exception13x
    30.05.2018 10:42

    >Отличие Data Scientists от Data Engineer — способность не только анализировать данные, но и интегрировать их в существующие системы. В связи с этим особенно важно глубокое знание языков программирования, а так же опыт создания или участия в создании высоконагруженных, многопоточных систем и т.п.

    А мне казалось, что наоборот, инженеры более прикладными задачами занимаются.


    1. Yo1
      30.05.2018 15:11

      вообще изначально сайнтист тот кто сам алгоритм может разработать, а скормить очищенные данные одному из миллионов фрейморков это задача аналитика. но теперь любой аналитик освоивший три команды питона, которые тренируют модель, называют себя сайнтистами…


      1. Archi_Pro
        31.05.2018 16:46

        таких на весь мир человек несколько, смотрим наприем кто сделал пакет Caret, смотрим удивляемся читаем био, считаем з/п. Потом поступаем на философский и думаем о вечном


    1. Rumyantsev Автор
      30.05.2018 15:12

      Имел ввиду, что DS знает глубже, но останавливается обычно на подготовке модели, а DE — может и в моделирование и сделать нормальную разработку.


      1. Archi_Pro
        31.05.2018 16:47

        oh, lol
        У DE с ETL дел невпроворот какое ему уже моделирование?


    1. Archi_Pro
      31.05.2018 16:44

      охохо, Hr'ы такие эйчары.
      Дата инженер этот кто отвечает за сбор данных, данные могут лежать в очень разном и порой странном виде в разных местах, реляционные базы, хадупы, стримы и т.д. и т.п.
      Сайнтист тот кто может с этими данными хоть что сделать полезное — модельку или дашбордик.


      1. Rumyantsev Автор
        01.06.2018 09:42

        Есть такая местами хорошая книга "Менеджер мафии" — вот оттуда :)


        Директор пo персоналу
        У Мафии нет такой должности. Подумай, он нужен ли тебе — директор по персоналу?
        Когда твоя организация разрастется настолько, что кое-кто в ней начнет доказывать необходимость директо­ра по персоналу, помни, что стоит ему появиться, как на­чальники твоих отделов тут же утратят тесную связь со своими сотрудниками, а это очень опасно для организации в целом. Мы считаем, что менеджер должен формировать свою команду лично и только лично.

        Хотя, т.к. у нас капитализм, то функция HR-грамотный интеллектуальный фильтр и капиталист платит за эту функцию если работа по поиску-подбору делается соотв. специалистом лучше и, главное, дешевле чем отвлечением от производства основных спецов.