Будущие аналитики данных, BI‑аналитики, ML‑разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели.

Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.

С какими данными работают студенты

Во время подготовки к будущей профессии студенты проводят анализ данных, выявляют закономерности, тенденции и важные паттерны на различных видах данных. Таких как:

  1. Синтетические данные. Имитируют реальные данные, созданы искусственно с помощью различных алгоритмов и моделей. ML модели обученные на них хорошо демонстрируют возможности машинного обучения, полезны для понимания принципов и статистической опоры изучаемых подходов, но они показывают точность часто недостижимую в реальной жизни и могут привести больше к погоне за метриками, а не за бизнес‑ценностью

  2. Данные, прошедшие предварительную фильтрацию. Это датасеты, частично или полностью очищенные от шума и ошибок, ограничены по предметной области, по объему и по временному интервалу. Такие данные помогают улучшить качество и точность результатов обучения, однако при работе с ними упускаются важные этапы исследования предметной области, сбора и валидации данных. Зачастую для таких датасетов можно найти готовые решения учебных задач, что препятствует развитию навыков, которые пригодятся в работе.

  3. Необработанные датасеты. Это данные, которые были собраны исследователями или организациями и еще не прошли предварительной обработки или очистки. Они наиболее полно отражают реальный мир, но зачастую не имеют конкретных задач и обратной связи с их владельцем, что важно для уточнений и совершенствования гипотез.

Студенты обучаются машинному обучению на фильтрованных и очищенных от шума данных. Они получают высокие показатели точности на учебных задачах, но сталкиваются с трудностями при работе с реальными данными в компаниях. Использование синтетических или предварительно отфильтрованных данных создает иллюзию знания и не готовит студентов к задачам бизнеса.

«Во время обучения всё давалось мне легко. Мне не надо было погружаться в доменную область, можно было просто работать с моделью машинного обучения как с чёрным ящиком — закинул данные и они посчитались. Когда я пришел на первую работу, попробовал применить свои навыки, то результат был ужасным. Теперь я сам учу студентов и стараюсь донести им важность реальной практики, например, на хакатонах. Рассказываю, что в реальности у них будет гораздо больше проблем, чем недостаточно хороший скор, более важными окажутся проблемы с качеством, ресурсами и во взаимодействии со стейкхолдерами».

Артём Галимьянов, Data Scientist, преподаватель РАНХиГС и Skillbox

Позволю себе выделить характеристики данных, которые считаю важными для решения бизнес-задач:

  • Реалистичность и полнота — для достижения точности и надежности результатов анализа, нужно учитывать насколько данные отражают особенности реального мира с его искажениями.

  • Постановка задачи и формулирование гипотез — эти элементы помогают определить цели и направление исследований, а также обосновать его значимость и актуальность.

  • Обратная связь — возможность для студента уточнить гипотезы с владельцем данных, получать дополнительную информацию для улучшения результата, совершенствовать понимание предметной области.

Какие существуют источники и возможности для работы с открытыми данными  

Студентам нужны датасеты разных форматов, отвечающие специфике задач и целям обучения. Синтетические данные и данные, прошедшие предварительную фильтрацию, помогают освоить базовые навыки. Однако, чтобы стать востребованным специалистом, необходимо уметь работать с необработанными датасетами, которые максимально приближены к реальным условиям.

Необработанные датасеты помогают студентам:

  • Разнообразить выполняемые учебные задачи, предоставляют поле для самостоятельной постановки задач и формулирования гипотез.

  • Проверять навыки на практике. Работа с необработанными данными помогает проверить полученные знания в условиях, приближенных к реальным проектам.

  • Формировать портфолио. Успешные проекты с использованием таких данных станут отличным дополнением к резюме.

Источниками этих данных могут быть:

  1. Проектная деятельность в вузах. Некоторые университеты собирают базы данных и датасеты для использования студентами в учебных целях. Например:

    База доступных датасетов, собранная Национальным исследовательским университетом «Высшая школа экономики»

    Национальная олимпиада по анализу данных для школьников 9–11 классов

    В этих источниках можно найти качественные датасеты, но остается вопрос правильной формулировки гипотез и задач и получения обратной связи.

  2. Участие в хакатонах. Хакатон — соревнование, на котором участники соревнуются в создании инновационных проектов или решений в технологической сфере. Компании предоставляют реальные данные и дают возможность за пару дней погрузиться в доменную область. В результате участник получает навык понимания доменной области, делает решение на основе реальных данных, плюс показывает свои способности потенциальным работодателям.

    Все хакатоны России

Плюсы хакатонов

Минусы хакатонов

Данные почти, как в реальном мире

Ограничения по времени

Постановка практических задач

Высокий порог входа

Быстрая обратная связь

Высокие затраты для организации

  1. Поиск данных в открытых источниках. Необработанные данные. Например:

    Центр диагностики и телемедицины предоставляет наборы обезличенных рентгенологических диагностических снимков, по ним умные алгоритмы учатся самостоятельно находить патологии.

    Московские датасеты, где собрана информация о городских спортивных и культурных мероприятиях, данные об объектах городского хозяйства — дворах, контейнерных площадках, дорогах и других.

Проблема данных из открытых источников в том, что для их использования нужно обеспечить правильную постановку задачи и обратную связь от преподавателя. Поэтому, главная проблема при работе с открытыми датасетами — отсутствие готовых задач, максимально приближенных к тем, что выполняют аналитики в бизнесе. 

Как можно помочь в обучении и решении задач бизнеса с помощью реальных данных

Я работаю в сервисе для скрининга контрагентов — DataNewton. Это платформа для работы с информацией о контрагентах. Данные, которые мы предоставляем, берутся из более 50 официальных источников. У нас много информации по юридическим лицам и индивидуальным предпринимателям России и мы готовы ими делиться со студентами и университетами. 

С помощью данных DataNewton можно решать задачи: 

  1. Разработка и обучение модели машинного обучения для прогнозирования вероятности банкротства предприятий на основе временных рядов финансовых показателей. 

  2. Прогнозирование успешности бизнеса, рекомендательные системы для подбора партнеров и контрагентов для предпринимателей. 

  3. Задачи, связанные с геоданными о компаниях. Например, юридическая регистрация в одном из субъектов может опосредованно указывать на сферу деятельности. 

  4. OSINT поиск по открытым источникам — это методология сбора и анализа данных, находящихся в открытом доступе, для получения дополнительной информации.

Вместо заключения

Решение студентами бизнес-задач поможет развитию практических навыков и повышению мотивации в учебе. Готовые проекты, которые решают задачи компаний создадут взаимодействие между вузами и бизнесом, в результате чего:

  • Студенты получат реальные данные и научатся решать то, что хочет бизнес, столкнувшись с реальными условиями работы. Выполненное решение задачи может привлечь внимание работодателя и позволит выделить мотивированных студентов, готовых к дальнейшему сотрудничеству. 

  • Преподаватели не будут тратить время на придумывание проектов и тем для курсовых и дипломных работ. Они смогут предоставить студентам список готовых проблем и задач, из которых те смогут выбрать наиболее интересную.

  • Бизнес обеспечит студентов не только данными, но и обязуется давать обратную связь, получая на выходе решение собственных задач и список потенциальных сотрудников.

Такая практика поможет в развитии и подготовке квалифицированных специалистов, готовых работать в современных условиях рынка.

Напишите, если хотите воспользоваться нашими данными для решения учебных задач или проектов.

Комментарии (9)


  1. CrazyElf
    16.07.2024 10:53
    +7

    Реальные бизнес-задачи - это когда основное время тратится на то, чтобы:

    • получить доступ к уже имеющимся данным

    • договориться со смежными отделами о выгрузке для тебя недостающих данных

    • получить документацию на эти данные

    А потом уже начинается хоть какой-то ML.


    1. DenSigma
      16.07.2024 10:53

      И в чем здесь сложность? Реальные бизнес-задачи, это когда данные тебе предоставляют в виде толстенных драных бумажных журналов из цеха.


      1. CrazyElf
        16.07.2024 10:53

        Сложность хотя бы в том, что надо писать письма, договариваться с людьми и прочим таким заниматься. И это человеку "с аналитическим складом ума", и скорее всего интроверту ))
        Насчёт ввода, стандартизации и прочего причёсывания данных - это уже следующий этап, не менее муторный, да.


  1. Alexvicsavchenko
    16.07.2024 10:53
    +6

    Ключевое во всем этом - обеспечение смычки реальных задач (бизнеса) и учебного процесса.

    В целом, оторванность учебы от настоящей практики - одна из постоянно решаемых задач (с переменным успехом) на протяжении последних 150 лет (?).

    Во времена моей учебы (начало нулевых) разрыв был значителен и необходимость получения практических навыков (и конечно потребность в заработке) приводило к поиску профильной работы уже на 2м-3м курсе. Помню с приятелем ломали голову - что мы умеем по итогам 4 лет обучения кроме решения уточнений в частных производных (и то не факт :)).

    Наличие практически целесообразных задач с конкретным заказчиком ускоряет получение знаний. Но где этого заказчика взять (очевидно он должен находится вне формального учебного курса и быть также заинтересован в совместной работе) ?


    1. WebPeople
      16.07.2024 10:53
      +2

      Прекрасный комментарий и отличный вопрос в конце. В настоящий момент реальные заказчики заинтересованы в кадрах и активно сотрудничают с вузами, получая студентов к себе на практику по распределению. А если вы имеете в виду практические работы во время учебы (лабы и все такое), то тут вы правы. Это общемировая проблема. Ее решают, где-то лучше, где-то хуже.

      Например, могу предположить, что одну из лучших систем образования создали в свое время в СССР. Она была лучшая в течение какого-то периода. Например, лет 5-10. Возможно, было даже несколько таких периодов. Были они и до СССР. А потом все эти системы деградировали.

      Кстати, как наследие этой системы из СССР, я в детстве наблюдал в школе в кабинете труда станки: токарные, сверлильные, по дереву и металлу, точильные и т.п. А деградация проявлялась в том, что нас не учили на них работать, даже не допускали до них. И не было материалов. На уроках труда мы не получили ни одного трудового навыка.

      Не буду говорить, что в этом кто-то виноват. Причин всегда много. Поэтому, я называю это деградацией. И считаю, что основная проблема кроется в отсутствии механизма обновления системы и механизма защиты.

      Это отсутствие "девопса" в мире образования. В it очень многое было сделано, чтобы собирать и доставлять код до прода эффективно и быстро. А вот в других отраслях все куда медленнее. И в случае того же образования сбор инноваций, их анализ, проверка и тестирование, компиляция до уровня фгост, а потом "доставка" этих изменений до учебных заведений - происходит крайне медленно и неэффективно. Сама система так выстроена. Можно построить новый вуз, обеспеченный самой современной техникой, но через 5 лет там все деградирует до вуза середнячка.

      А ведь у нас даже целые города так строят. Как тот же Иннополис. В расчете, что это выстрелит в русский MIT. Но что-то не получается. Потому что смотрят не туда. MIT стал таким не потому, что туда закупили передовой техники и понастроили лаборатории и учебный городок. Там образовалась система, что обновляет сама себя. Символ вуза там бобер, что сам строит. А девиз "разум и руки", акцент на практике. Студенты реальными делами стараются заниматься, а не придуманными малополезными лабами.

      Масштабировать mit на прочие универы, конечно не получится, в силу уникальности. Там очень многое совпало. Тем не менее, можно взять идею "разум и руки", и на ее основе построить механизмы обновления для учебных заведений. Обновление оборудования, учебных материалов, материальных запасов и т.п. И систему защиты, которая будет огрызаться на тех, кто попытается развалить это. Причем, даже если преступный приказ отдаст глава ведомства, то под наказание попадут все, кто приказ выполнит. Чтобы сама система сопротивлялась попытке ее развала. Когда люди преступный приказ просто не выполняют. От верха до низа. Чтобы даже обычный учитель не имел власти исправить годовую оценку по своему "желанию" с 2 на 4, потому что "директор попросил" и т.д.

      Без такой системы защиты и системы обновления - любую систему образования ждёт деградация.


      1. Alexvicsavchenko
        16.07.2024 10:53
        +6

        Спасибо за подробный и развернутый комментарий. В целом, очень согласен.

        В юности, в силу радикализма, полагал, что изменить и усовершенствовать систему образования довольно просто, было бы желание. Сейчас поменял точку зрения - слишком много получается компромиссов нужно учесть:

        1. Как найти мотивированных и знающих преподавателей (например, в ИТ - с чего вдруг крутой разработчик пойдет в университет обучать, да еще и по зову сердца, а не потому что руководство так решило). Как эту мотивацию поддерживать на протяжении долгого времени.

        2. Как мотивировать студентов. Я помню себя, уже к середине обучения мало что было интересно из академической школы (включая предметы по ИТ) - было гораздо интереснее получать знания на работе.

        3. Как соблюдать множество различных формальностей и чтобы они не разрушили весь смысл, всю идею "разум и руки". Ведь необходимо обеспечивать общий процесс - от контроля знаний, до бюджетирования и т.д.

        4. Как это все масштабировать до уровня больших организаций уровня университетов.

        В целом, кажется, что система образования в будущем должна эволюционировать и (возможно) уйти от классических массивных школ (кампуса, здания, инфраструктура, экзамены) к каким-то более персональным, нишевым историям. Когда задается гибкий фреймворк того самого "devops в образовании", о котором Вы писали, задаются общие правила взаимодействия и дисциплины (не забываем, что развитие требует усилий), а дальше идет проектная работа над тем или иным направлением.

        Если я - бизнес, то мне интересно развивать и растить интересующихся людей, вкладывая ресурсы и постигая новые области знаний вместе с ними.

        Последнее, как мне кажется, очень важно :) Хочется как Гильберт, который изучал новые области математики вместе со своими аспирантами, по ходу семестра.