Привет, Хабр! Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Практикуме. Большая часть наших студентов в качестве цели обучения указывает успешное трудоустройство в новой профессии. Поэтому мы внимательно отслеживаем, у кого из выпускников получилось устроиться на желаемую должность, сколько времени это заняло и сколько усилий потребовало. На основе этих данных мы строим наши продуктовые обещания студентам.

Наши обещания на странице курса «Аналитик данных»
Наши обещания на странице курса «Аналитик данных»

В конце прошлого года у нас появилась идея выявить ключевые факторы, влияющие на трудоустройство студентов, и научиться формировать более точные и дифференцированные ожидания. Предполагалось, что мы сможем создать форму, заполняя поля которой студент получает вдобавок к общей статистике предсказание именно для себя.

Чего мы ожидали

По замыслу эта форма могла бы работать так: например, студентка Анна указывает, что ей 34 года, у неё нет профильного образования и релевантного опыта работы. В ответ она получает предсказание: «90% выпускников с такой же анкетой нашли работу менее чем за шесть месяцев, сделав 200 откликов на вакансии, решив 30 тестовых заданий и пройдя шесть собеседований. Наверное, тебе больше подойдёт курс “Аналитик данных плюс” — этот выбор сократит время поиска работы на три недели и 46 откликов».

И Анна сильно задумывается, готова ли она к такому труду. Но если уж решается попробовать, то не ждёт чуда и готовится откликаться на 200 вакансий в течение полугода.

А 25-летняя студентка Василиса с профильным образованием и двумя пет-проектами в портфолио получает такое предсказание: «Выпускники с такой же анкетой в 90% случаев находят работу менее чем за месяц, сделав 10 откликов, решив два тестовых задания и пройдя два собеседования». И Василиса радостно начинает учиться.

Такие обещания были бы честнее — и студенты заранее бы знали, на что рассчитывать. А наиболее подготовленные из них получали бы привлекательные прогнозы, которые мотивировали бы их учиться именно в Практикуме.

Чтобы научиться делать такие выводы, мы провели исследование.

Какие данные у нас были

В работе мы использовали два набора данных.

Первый набор — данные из карьерного трекера Практикума. Это сервис, на котором выпускники и студенты (доступ предоставляется незадолго до конца обучения) могут:

  • видеть потенциально интересные и подходящие для них вакансии, а также откликаться на них,

  • заносить информацию по вакансиям, найденным в других источниках,

  • вносить свои результаты — отправленные отклики, полученные приглашения на собеседования и выполненные тестовые,

  • получать статистику о ходе трудоустройства.

Выпускники, участвующие в программе акселерации, обязаны регулярно предоставлять статистику по поиску работы. Остальные могут делать это по желанию — некоторые студенты отслеживают прогресс вне акселерации из-за удобства сервиса.

Второй источник информации — данные об участии в проектах от реальных компаний в Мастерской Практикума. Вместе датасеты помогли выяснить, как наличие уникальных проектов в портфолио влияет на поиск работы.

В обоих датасетах были данные о трудоустройстве выпускников и студентов — большая часть из них выпустилась с курсов стандартной длины (семь-восемь месяцев) по специальностям «Аналитик данных» и «Специалист по Data Science». Выпускников длинных курсов «плюс» или коротких «буткемп» почти не было, поэтому мы отказались от идеи отследить влияние длины курса на скорость и сложность трудоустройства. Также в выборку вошли несколько выпускников курсов «Системный аналитик», «Инженер данных» и «Бизнес-аналитик».

В обоих файлах информация об образовании и опыте работы выпускников хранилась в виде категориального значения. Для подсчёта корреляции текстовое описание было переведено в цифры.

Категориям образования были присвоены такие значения:

Профильное (образование в сфере работы с данными)

1

Релевантное (техническое образование)

2

Нерелевантное (нет образования или есть, но не связанное с данными и IT)

3

А категориям опыта — такие:

Релевантный (прошлое трудоустройство по специальности, стажировки, командные проекты)

1

Почти релевантный (волонтёрские, пет- и опенсорс-проекты)

2

Только учебный опыт

3

Сколько сил и времени тратит средний медианный выпускник на трудоустройство

Сложность и длительность трудоустройства в нашем датасете описывают следующие переменные:

  • длительность поиска в днях;

  • количество откликов на вакансии,

  • количество пройденных собеседований,

  • количество решённых тестовых заданий.

Как видно по данным, распределения этих величин не являются нормальными — то есть средние значения далеки от медианных. Более того, в распределениях есть выбросы, а значит, медианные показатели характеризуют их намного лучше, чем простые средние.

Распределения величин, описывающих сложность и длительность поиска работы
Распределения величин, описывающих сложность и длительность поиска работы

Согласно выгрузке из базы, три выпускника умудрились найти работу за три, пять и шесть дней. Очевидно, на них ориентироваться не стоит. Как и на экстремально длинные поиски в 495 дней (больше года!) или экстремально массовую рассылку резюме (633 отклика).

По медианным данным, выпускник ищет работу чуть дольше двух месяцев, делает 57 откликов, проходит три собеседования и решает три тестовых задания.

Сколько усилий тратят выпускники на поиск работы
Сколько усилий тратят выпускники на поиск работы

Примерно 40% выпускников пришлось приложить больше усилий — они искали работу не более шести месяцев, сделали не более 203 откликов, решили не более восьми тестовых и прошли не более восьми собеседований. Получается, для кого-то шесть месяцев поиска и 200 откликов — это суровая реальность.

Медианные показатели у аналитиков данных и специалистов по Data Science практически одинаковы. Дата-сайентистам нужно сделать на 10–11 откликов меньше, а поиск работы у них короче на пять-шесть дней.

Метрики сложности и длительности трудоустройства по направлениям
Метрики сложности и длительности трудоустройства по направлениям

Что влияет на скорость трудоустройства

Построим корреляционную матрицу на основе расчётов коэффициента корреляции Спирмена — получим такую тепловую карту. 

Чем ближе число на пересечении двух разных показателей к единице, тем сильнее положительная корреляция и тем сильнее при росте одного параметра будет расти другой. Если же корреляция близка к нулю, связи между параметрами нет и они полностью независимы. Если корреляция отрицательна, то нас будут интересовать показатели, близкие к −1. Такая корреляция означает, что с ростом одного параметра другой будет убывать.

Тепловая карта корреляционной матрицы
Тепловая карта корреляционной матрицы

Начнём с очевидных выводов. Количество откликов имеет среднюю корреляцию с количеством собеседований и количеством тестовых. До собеседований и тестовых доходит тот, кто откликается на вакансии (и как бы мы это узнали без нашего исследования?).

Период поиска в днях также имеет среднюю корреляцию с количеством откликов. И слабую — с количеством собеседований и количеством тестовых. Тот, кто долго ищет работу, имеет слабую конверсию откликов в собеседования и тестовые и поэтому должен делать много откликов. Получается, самое сложное в поиске работы — попасть на собеседование.

Удивительно, но корреляция целевых переменных с образованием и опытом работы очень близка к нулю. Опыт работы и образование выпускника до (!) курсов не влияют на срок поиска и количество затраченных усилий. Можно выдвинуть несколько гипотез для объяснения этого факта:

  • Потенциальные студенты с релевантными опытом и образованием ищут совершенно другую работу. Их требования по оплате и другим условиям работы выше. А чем выше требования к будущему работодателю, тем при прочих равных дольше длится поиск работы.

  • Студенты без релевантного образования и опыта работы понимают свои минусы и поэтому по максимуму используют возможности карьерного трека в Практикуме: не пренебрегают советами по составлению резюме и портфолио, активно откликаются на вакансии. Более подготовленные студенты хуже готовят резюме и портфолио, меньше времени уделяют сопроводительным письмам и не так активно откликаются на вакансии.

Увы, но проверить эти гипотезы мы не можем. В любом случае наше общее обещание по среднему времени трудоустройства правдиво для студентов с самыми разными уровнями образования и опытом — но у участников могут отличаться отношение к выбору предложений, степень активности и тактика в трудоустройстве.

Возраст если и имеет корреляцию с периодом поиска работы, то очень слабую. Рассмотрим эту связь подробнее.

После 35 уже поздно... или нет?

Вот как выглядит зависимость медианного времени поиска работы от возраста кандидата.

Медианная длительность поиска работы в днях по возрастам с линейным трендом
Медианная длительность поиска работы в днях по возрастам с линейным трендом

Видно, что линейный тренд положительный, но также видно резкие скачки метрики. В итоге у нас типичный график в стиле «ничего не понял, но очень интересно». Причина такого поведения метрики — очень маленькие выборки кандидатов в некоторых возрастах. Именно на таких выборках мы и получаем аномально большие и аномально маленькие значения.

Избавимся от них, объединив кандидатов близкого возраста в группы. К сожалению, нам придётся удалить кандидатов до 20 и старше 45 лет, так как количество кандидатов в группах 15–19, 49–54 и 54–59 лет остаётся экстремально маленьким даже после объединения.

Медианная длительность поиска работы по возрастным группам
Медианная длительность поиска работы по возрастным группам

Отлично! Из этого графика видно, что «40 — это новые 30». Медианные длительности поиска работы в возрасте от 30 до 35 и от 35 до 40 практически идентичны и составляют 2,5 месяца.

А вот лёгкий поиск работы в возрасте 20–24 лет удивляет. Как правило, кандидаты из этой группы не имеют законченного высшего образования, часто являются студентами и не могут работать полный рабочий день. Почему же кандидаты из этой возрастной категории находят работу быстрей, чем кандидаты из категории от 25 до 30 лет? Может, они шлют бешеное количество откликов на вакансии?

Медианное число откликов на вакансии по возрастным группам
Медианное число откликов на вакансии по возрастным группам

Нет, причина явно не в этом. На рисунке мы видим постоянно растущий тренд — более старшим кандидатам приходится делать больше откликов.

Возможно, основная причина длительности трудоустройства объясняется не предпочтениями работодателей, а гибкостью соискателей. Попробую объяснить на своём примере. Когда я «входила в IT», я уже была замужем, у меня было двое детей и мы жили в хорошей квартире. Практически сразу после начала поисков я получила предложение от хорошего работодателя, но на другом конце города. Зарплата на джуниор-позиции не оправдывала ситуацию «мама уезжает с рассветом и возвращается ближе к полуночи». Также было слишком накладно переезжать всей семьёй со сменой садика, няни, квартиры и работы мужа. Поэтому я отказала работодателю и продлила поиски работы ещё на два месяца. Будь я моложе лет на 10, просто сменила бы арендное жильё и согласилась.

Чем старше соискатель, тем выше вероятность наличия у него семьи и детей, что, следуя этой гипотезе, может влиять на поиски работы двояко:

  • у соискателя снижается круг предложений, которые он может принять,

  • соискатель может себе позволить более долгие поиски, так как в семье может быть ещё один работающий взрослый.

Сколько проектов должно быть в портфолио, чтобы быстрее найти работу

У нас не было информации о количестве работ в портфолио студентов, но была информация о проектах, успешно завершённых студентами в Мастерской. У нас были очень большие ожидания от этого исследования. Предполагалось, что мы сможем сопровождать объявление о старте нового проекта фразой вроде «Закончи этот проект — и сократи время поиска работы на 10 дней!». Ну а что мы получили в итоге, видно на рисунке.

Медианное значение периода поиска работы по количеству успешно завершённых проектов в Мастерской
Медианное значение периода поиска работы по количеству успешно завершённых проектов в Мастерской

Необходимо признать, что не каждый выпускник успешно завершает четыре и более проекта в Мастерской, поэтому три правых столбца на графике визуализируют медианное значение по экстремально маленьким выборкам. Не будем их учитывать (и строить выводы об ужасающем влиянии четвёртого проекта). Хорошая сторона этого факта — для успешного трудоустройства большинству студентов достаточно не более чем трёх проектов.

Возможно, работа над проектами в Мастерской отнимает время и кандидатам просто некогда откликаться на вакансии? Посмотрим на медианное число откликов.

Медианное количество откликов по количеству успешно завершённых проектов в Мастерской
Медианное количество откликов по количеству успешно завершённых проектов в Мастерской

Стараясь не смотреть на три последних столбца (экстремально малые выборки!), отмечаем, что каждый успешно сделанный в Мастерской проект увеличивает количество необходимых для трудоустройства откликов на 20–30 штук.

Эту странную динамику можно объяснить следующими факторами:

  • чем слабее выпускник, чем хуже его позиция на рынке — тем больше проектов в Мастерской ему необходимо завершить для успешного трудоустройства,

  • проекты в Мастерской помогают получить лучшее предложение, а чем лучше вакансия, тем больше времени и сил необходимо тратить на её получение,

  • выпускники решают много проектов в Мастерской, когда не чувствуют себя готовыми к реальному трудоустройству.

Помню период, когда многие выпускники курса «Аналитик данных» сразу после выпуска начинали обучение на курсе «Специалист по Data Science». На вопрос «зачем?» отвечали, что проучились всего шесть месяцев и пока не чувствуют себя настоящими аналитиками. Хотя у них даже диплом государственного образца о переподготовке был.

Гипотеза «чем слабее выпускник, чем хуже его позиция на рынке — тем больше проектов в Мастерской ему необходимо завершить для успешного трудоустройства» хороша тем, что её можно попытаться опровергнуть. Для этого выведем нормированное распределение уровней опыта работы выпускников по количеству сделанных проектов в Мастерской.

Нормированная диаграмма распределения уровней опыта работы выпускников по количеству сделанных проектов в Мастерской
Нормированная диаграмма распределения уровней опыта работы выпускников по количеству сделанных проектов в Мастерской

Наша гипотеза как минимум не опровергается. Мы видим, что выпускники с релевантным опытом либо вообще не выполняют проекты в Мастерской, либо выполняют один, крайне редко — два проекта. А доля выпускников с исключительно учебным опытом растёт с увеличением числа выполненных проектов. 

В каком месяце лучше начинать искать работу

Мы рассмотрели много характеристик соискателей. Посмотрим, могут ли наши данные сказать что-то о рынке труда: например, как сложность и скорость трудоустройства меняются в зависимости от сезона.

Медианное количество дней, потраченное на поиск работы, в зависимости от месяца начала поиска
Медианное количество дней, потраченное на поиск работы, в зависимости от месяца начала поиска

Мы видим, что быстрее всего находят работу приступившие к поискам в апреле, мае и октябре. Дольше всех ищут работу те, кто приступил к поискам в январе, июле, августе, ноябре и декабре. Во многом это ожидаемо. Длительность поисков можно объяснить январскими каникулами и летними отпусками.

В октябре же наоборот — все планы на следующий год более-менее понятны, и все торопятся закрыть вакансии до праздников. Но чем объяснить низкие значения метрики в апреле и мае? Может, кандидаты очень активно откликаются на вакансии в эти периоды?

Медианное количество откликов в зависимости от месяца начала поиска
Медианное количество откликов в зависимости от месяца начала поиска

Если короткий период поиска работы с началом в мае можно объяснить повышенной активностью кандидатов, то начавшие поиск в апреле явно не перетрудились. Получается, что лучшие месяцы для начала поиска работы — апрель и октябрь. Если начнёте искать в это время, потратите меньше сил и времени. А в декабре поиск работы начинать не рекомендуем.

Подведём итоги

Результат исследования не оправдал наших ожиданий. Мы не можем корректировать наше продуктовое обещание студентам в зависимости от их возраста, опыта или образования, так как скорость и сложность трудоустройства не зависят или почти не зависят от этих параметров. 

При этом в результате исследования нам удалось получить несколько полезных выводов: 

  • Медианный выпускник курсов «Аналитик данных» и «Специалист по Data Science» находит работу после двух месяцев поисков, 57 откликов на вакансии, трёх собеседований и трёх тестовых заданий.

  • Предыдущий опыт работы и образование не влияют на длительность и сложность трудоустройства, но могут влиять на характеристики найденной работы.

  • Начинать свой путь в IT можно в любом возрасте. 19 — уже не рано, 40 — ещё не поздно. Но чем раньше вы это сделаете, тем меньше сил и времени на это потратите.

  • Самые удачные месяцы для начала поиска работы — апрель и октябрь. Если ваш выход на рынок приходится на декабрь, будьте готовы, что поиск может занять примерно на месяц больше. Учитывайте сезонность, планируя старт обучения или собираясь сделать перерыв.

  • Для успешного трудоустройства в портфолио будет достаточно двух-трёх проектов.

Комментарии (12)


  1. vtal007
    27.04.2024 06:58

    Очень аналитично, спасибо :)


  1. YAKOROLEVAZAMKA
    27.04.2024 06:58
    +1

    Зачем делать графики с аномалиями ("экстремально маленькая выборка"), вы же сами на своём курсе по аналитике данных учите про выбросы и перцентили?

    И оффтоп - если получится то сделайте, пожалуйста, график сколько выпускников в детстве интересовалось IT и пока у всех был интернет по карточкам - они уже проложили локалку на районе и играли в CS:Go и Dota2, очень заинтересовало

    Для тех кто не видел:
    https://pikabu.ru/story/kak_ya_iskal_rabotu_vo_frontende_11075658


    1. OlgaDS Автор
      27.04.2024 06:58
      +1

      Я обычно работаю так:

      • визуализирую все данные;

      • разбираюсь, что именно на графике, почему такие цифры, о чем говорят, можно ли им доверять;

      • дорабатываю графики.

      Мне показалось важным показать, например, что выпускники с релевантным опытом не делают "экстремальное количество проектов". Т.к. из других данных мог бы следовать другой вывод - например, что это оч скиловые выпускники, которые искренне и в удовольствие тратят время на помощь НКО - нашим заказчикам. И решают в Мастерской совсем не задачу "создать портфолио для трудоустройства".

      Но в целом я с вами согласна и теперь бы внесла изменения в графики метриков по количеству выполненных проектов - как минимум объединила бы левые три столбца в группу "> 3 выполненных проектов". Или даже объединила бы левые четыре столбца в группу "> 2 выполненных проектов". Учту на будущее.

      ЗЫ: Я трудоустроилась после курсов в IT, и в детстве не то, что CS:Go и Dota2 не играла по локалке - у меня даже велосипеда компьютера не было. Сильно игре по локалке в CS:Go и Dota2 мешало не только отсутствие компьютера, но и выход данных игр через несколько лет после окончания моего детства.


      1. SlavkaLev
        27.04.2024 06:58

        И то что, когда они вышли - карточного интернета уже не существовало