Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” – буткемпа по Data Science, который проводится в разных регионах России.
Data Science – уже не новая профессия. Отрасль созрела, требования к специалистам по DS на рынке труда стали более конкретными и понятными. В свою очередь, система школьного образования (да и высшего тоже) не успевает перестроиться вслед за потребностями индустрии.
Существует и региональная дифференциация с точки зрения доступности дополнительного образования. Далеко не в каждом регионе России у молодых людей есть возможность знакомиться с современными предметами такими как анализ данных и машинное обучение. Причин тому множество - от нехватки цифровой инфраструктуры для обучения до отсутствия соответствующих компетенций у педагогов. Что касается онлайн-курсов, то они, в основном, ориентированы на уровень профессионального образования.
“Дата-Кампус” начинался как серия тематических образовательных смен в рамках федерального проекта «Кадры для цифровой экономики», но со временем превратился в самостоятельное образовательное событие. За два года около 2000 человек из 62 населенных пунктов России приняли участие в "Дата-Кампусе".
Программа “Кампуса” довольно насыщенная и состоит из лекций, семинаров и консультаций, где участников знакомят со средой разработки, основами программирования и темами по машинному обучению. Далее участники делятся на группы, выбирают исследовательскую задачу по анализу данных, над которой и работают основную часть времени. В конце - защита проектов, лидерборд по итогу оценок экспертов и награждение.
В чём фишка кампуса?
Формат буткемпа
Большинство людей, которые к нам приходят, ранее не сталкивались с машинным обучением. Некоторые из них имеют базовые навыки программирования на Python, а некоторые и вовсе ни разу не программировали. Конечно, за одну-две недели не стать экспертом, да у нас и нет цели добиться от участников ремесленного совершенства в этой области. Ценно то, что каждый участник “Дата-Кампуса” получает базовое представление о Data Science, знакомится с тем, что и как делают профессионалы в этой области, делает проект в составе группы, участвует в оформлении и презентации результатов.
Профессиональная проба
Если говорить о той части аудитории, которая выбирает для себя профессию, например, о старших школьниках, которым очень важно искать себя, пробовать разное, то “Кампус” ставит перед такими участниками открытые задачи по анализу данных, где нет заведомо правильных ответов. У учащихся появляется возможность поразмышлять над методами исследования, прочувствовать сложность и многогранность задачи, представить и аргументировать выбранные подходы. Такой формат позволяет сформировать представление о профессии и самоопределение по отношению к карьере в этой области.
Акцент на структуре научного исследования
Часто, когда речь заходит о преподавании Data Science и машинного обучения, можно услышать: «Невозможно заниматься этими вещами без глубокого знания математики и статистики!». Однако, нам важнее донести до участников мысли о том как проводить качественное исследование в целом, нежели глубоко погружаться в детали алгоритмов. Мы обучаем методологии CRISP-DM, учим постановке гипотез, выбору и аргументации методов исследования, интерпретации и представлению результатов. Лучше, если участники воспользуются простой моделью или эвристикой, но доведут дело до логического конца, чем потеряются, попытавшись завести нетривиальные модели.
Темы проектов и данные
Нам важно, чтобы данные и проекты были релевантны интересам нашей аудитории. Это опытный специалист может продуктивно работать над решением заказной задачи или над абстрактной проблемой. Более юным и менее опытным студентам, которые не представляют, как данные, с которыми им предложили работать, связаны с реальной жизнью, вся работа может представляться бессмысленной. Мы исходим из того, что знание Data Science - это не самодостаточная ценность, но инструмент, позволяющий решить максимально конкретные задачи, в том числе исподволь – задачи, актуальные для юношеского возраста, связанные с самоопределением, освоением способов совместной деятельности с другими людьми и апробацией версий о своей будущей профессии.
Поэтому, хотя самые разнообразные датасеты у нас заготовлены заранее, темы проектов у нас всегда идут от команд. Сначала многие проектные идеи выглядят завиральными, но после проработки и консультаций с экспертами участникам удается сформулировать решаемую задачу. В итоге этот подход оправдывает себя. Образовательная программа должна предусматривать решение таких образовательных задач, которые имеют статус «настоящих» для всех ее участников.
Межпредметность
Мы особенно поддерживаем междисциплинарные проекты и призываем «миксовать» данные из разных датасетов. Так, на "Кампусах" всегда много аналитических проектов по экономике, культуре, экологии, образованию.
Самой популярной всегда оказывается инженерная тематика, и мы наблюдаем, что строго технические проекты учащимся даются легче. Сюда относятся задачи, связанные с инженерией и техникой, например, имплементация алгоритма классификации изображений или построение рекомендательной системы. Такие темы бывают сложнее гуманитарных в плане создания моделей, но концептуально они проще.
В отношении социально-экономических тем дела обстоят сложнее. Например, далеко не все школьники продуктивны в этих областях. Многие вроде и проходили что-то в школе по истории, экономике, обществознанию, но зачастую не способны применить эти знания для того, чтобы исследовать комплексный социокультурный или политико-экономический конструкт, например «бедность» или «счастье» или «регион». Уже на этапе формулировки гипотез учащиеся сталкиваются с тем, что для такого объекта трудно сформулировать определение, выделить существенные признаки и их корреляты из разных предметных областей и подобрать соответствующие данные.
И здесь очень важно, что с аудиторией у нас работают профессионалы из индустрии. Они демонстрируют определенную культуру мышления. А инструментальные навыки подтянутся – при желании.
В таблице ниже приведены примеры дата-проектов, реализованных участниками «Дата-Кампуса» в разное время, позволяющие оценить степень сложности тех проблем, которые фактически решали учащиеся.
Краткое содержание |
Техническое направление |
Области |
Представленность регионов в федеральной новостной повестке 2009-2019 гг. и тематическое моделирование федеральных новостей |
Обработка естественного языка |
Коммуникации |
Скрининг на пневмонию по рентгеновским снимкам |
Компьютерное зрение |
Медицина |
Определение жанра живописи по фотографии картины |
Компьютерное зрение |
Культура |
Сортировщик для раздельного сбора мусора |
Классический ML |
Экология |
Рекомендации по географическому применению солнечных панелей для генерации электроэнергии |
Рекомендательные системы |
Энергоносители; Экология |
Предсказание победителей спортивных матчей по цифровым видам спорта |
Классический ML |
Цифровые экосистемы |
Система компьютерного зрения для беспилотного карьерного самосвала |
Компьютерное зрение |
Промышленность, инновации |
Анализ факторов, влияющих на популярность массовых онлайн-курсов |
Аналитика |
Коммуникации, цифровые экосистемы |
Исследование жанрового многообразия, лексической сложности книг и статистики книгоиздания в разных возрастных сегментах |
Обработка естественного языка |
Коммуникации |
Преподаватели из дата-индустрии
Преподами и экспертами у нас уже успели побывать ML-разработчики, проджект-менеджеры, тимлиды из разных компаний, таких как Яндекс, Rambler&Co, Евраз-холдинг и другие. Нам очень важно, чтобы преподавателями Кампуса были действующие профессионалы из индустрии. Не только потому, что с профессионалами программа идет легче, но и потому что такие специалисты для молодых людей – это ролевые модели и носители соответствующей культуры. Поэтому мы всегда ищем специалистов, которым нравится делиться своими знаниями с другими.
“Дата-кампус.Медиа” 2021
За последние пару лет прошло несколько очных и “гибридных” “Кампусов”, но поподробнее хочется рассказать о последнем (на текущий момент), который мы провели в июне 2021 года.
Во-первых, это наш первый тематический “Кампус”. Если раньше мы пробегались по всем основным темам машинного обучения, то на этот раз мы сфокусировались на обработке естественного языка. Мы использовали данные, связанные с разными медиа: новостными лентами, электронными книгами, обзорами кинофильмов и музыкальными текстами. Во-вторых, в связи с эпидемией нам пришлось полностью перейти на онлайн-формат, что стало настоящим вызовом как для организаторов и преподавателей, так и для участников. В-третьих, специфика онлайнового тематического “Кампуса” подразумевала более детальную проработку программы, подготовку датасетов и гипотез исследования с тем, чтобы максимально структурировать рабочее время.
Результаты
На “Дата-кампус.Медиа” мы проводили отбор с помощью вступительного тестирования, где проверялись базовые знания программирования на Python. Несмотря на проверку знаний, критерии отбора были довольно мягкие. Необходимость тестирования заключается в том, чтобы оценить уровень участников и впоследствии разбить их на сбалансированные по навыкам программирования команды.
Главным достижением участников мы считаем успешный опыт работы в географически распределенных командах: были команды, участники которых работали из дома в Чебоксарах, Югре, Новосибирске и т.д. Вся коммуникация участников между собой (видео, командный чат), хранение данных и написание и исполнение кода были организованы на единой облачной платформе, доступной через браузер и мобильные приложения.
Несмотря на геймификацию всего процесса (на "Кампусе" действует специально разработанная игровая модель), наличие онлайн-наставников, закрепленных за каждой группой, четкий таймлайн проектной работы, у нас были опасения относительно того, насколько юные участники будут мотивированы и активны в условиях “удаленки”. Но оказалось, что соотношение активных и неактивных участников мало отличается от оффлайна, и заинтересованные команды прекрасно самоорганизуются в онлайне, более того, занимаются своим проектом далеко за пределами формально отведенного для этого времени. Так что мы не можем разделить распространенное в школьных кругах разочарование “дистантом”.
Что дальше?
"Дата-Кампус" продолжает развиваться. Если у вас есть практическое знание DS & ML и желание поделиться профессиональным опытом с молодыми людьми, для которых общение с вами может стать определяющим в выборе профессии, пишите нам в Telegram.
Комментарии (10)
mrguardian
16.09.2021 11:38А чему учите? Как библиотеку в питоне использовать или даете фундаментальные знания на примере разработки собственной сети?
ieBoytsov Автор
16.09.2021 12:52+1Привет. Конечно чаще пользуемся библиотеками, попутно объяснив что там под капотом с точки зрения математики. Важно, чтобы за время Кампуса у участников сформировалось общее представление о том как решать задачу. А фундаментальные навыки реализации алгоритмов подтянутся позже. Например, в универе. Еще есть случаи, когда после Кампуса участники продолжают развивать свои проекты и глубже погружаются в детали.
В случае нейронных сетей пишем в основном на библиотеке keras - она довольно высокоуровневая, в то же время в ней есть пространство для творчества (создать свою архитектуру, попробовать разные функции активации, написать какие-то операции с нуля) - так или иначе нужно понимать, что делаешь, чтобы получилось что-то осмысленное.
Иногда бывает, что задача решается без машинного обучения каким-нибудь эвристическим алгоритмом, тогда участники пишут с нуля определенную математическую логику.
+ мы проводим консультации с участниками, делаем мастер классы, где с нуля пишем примеры пайплайнов работы с данными и проводим код ревью.
masai
18.09.2021 11:00можно ли освоить машинное обучение за 10 дней?
Познакомиться можно, освоить нет.
ieBoytsov Автор
18.09.2021 11:45+1Вы правы. Вопрос в заголовке больше риторический. В тексте статьи мы ставим акцент на том, что за такой срок можно получить только базовое представление о профессии.
Как показывает опыт, такой формат погружения очень полезен для новичков, так как он помогает им сформировать отношение к профессии и оценить свою готовность встать на путь дальнейшего профессионального освоения :)
vladimirad
20.09.2021 15:22+1Сделайте продукт, чтобы даже дурак мог им пользоваться и только дураки будут им пользоваться. (Кто-то из великих).
Удручает перенимаемое нашим образованием "демонстративное" обучение. Ярким представителем такого типа обучения является язык Скретч. Суть такого обучения проста - Обещать результаты за малый срок и с минимумом усилий для обучаемого. Первый проект за пять минут! Один день и вы пишете программы! Линукс за 24 часа! - Обещали они...
Да, первый проект делают быстро, но что дальше? "Дава, что дальше?" Тут и становится ясно, что понимания предмета нет, а реализации учебных проектов по шаблонам не помогают развивать понимание. Иногда, очень редко обучающиеся "выстреливают с идеями применения" технологий, но это бывает редко.
S_A
22.09.2021 16:49Вы невнимательно видимо прочли и статью, и комменты выше.
Школьники в состоянии понять, что с помощью алгоритма и тренировочных данных, можно получить модель, прогнозирующую новые данные, с качеством по отложенном тесту.
Нет цели влить матан, но "магию" машинного обучения раскрыть на примерах можно.
vladimirad
23.09.2021 10:32-1Надо заметить, что заявленная тема статьи не совпадает с вашим комментарием. Похоже статью не вы писали. Тема: освоить машинное обучение за 10 дней, а в комменте пишете "магию" машинного обучения раскрыть на примерах можно. Это разные вещи. Но похоже вы этого, к сожалению, не понимаете.
S_A
23.09.2021 11:01+1Статью писал не я, но в трёх дата кампусах я поучаствовал.
Читайте статью и комменты. И тогда разные вещи у вас в голове сложатся во что-то целое.
ieBoytsov Автор
23.09.2021 11:12Я согласен с вами, что демонстративное обучение - это плохо. Мне жаль, что вы поставили Кампус в один ряд с такими проектами. По поводу "освоения" выше я отвечал, что вопрос риторический. Возможно, об этом стоило более явно сказать. Приму к сведению на будущее.
Отвечу так - когда я только начинал карьеру, подобных проектов не существовало вовсе и не у всех была возможность получить знания. Сейчас я смотрю на это со стороны, вижу обратную связь учеников и понимаю как мне в моей юности не хватало такого рода проектов.Во-многом поэтому мне хочется заниматься такими инициативами как Кампус, чтобы хоть отчасти закрывать потребности учащихся. И я не понимаю как такие стремления и существование таких проектов как Кампус может вызывать негативные эмоции.
natanielg
нормально