Автор статьи, переводом которой мы делимся к старту флагманского курса о Data Science, Эдмонд Ли в годы студенчества изучал физику и даже попал на стажировку в CERN, многие люди спрашивали его о переходе от академической физики к Data Science. Как физик, автор считает, что должен ответить на вопросы «почему?» и «как?» и надеется, что его история ответит на вопросы о причине, о том, как он преследовал цель, и вдохновит заниматься тем, что захватывает мысли. Интересно, что в самом начале изучения программирования автор мог неделю разбираться с циклом for
.
Всё началось с CERN
Летняя студенческая программа CERN даёт студентам-бакалаврам направлений физики, вычислительной техники и инженерии возможность — раз в жизни — присоединиться к одному из своих исследовательских проектов с ведущими учёными в международных командах CERN в Женеве. В июне 2017 года мне очень повезло: меня приняли в эту программу.
Я чуть не лопнул от радости: физика элементарных частиц всегда была моим исследовательским интересом, и возможность проводить исследования в CERN оказалась просто воплощением мечты! За 2 месяца стажировки с помощью всемирной вычислительной сети LHC и облачных вычислений я провёл анализ и моделирование реконструкции событий из терабайтов данных для эксперимента с компактным мюонным соленоидом (CMS).
Студенты программы посещали серию лекций, семинаров, охватывающих широкий спектр тем в области теоретической и экспериментальной физики элементарных частиц и вычислительной техники, посещали объекты CERN.
Тогда лекции, семинары и даже сам мой проект познакомили меня с машинным обучением и аналитикой больших данных. Особенно меня поразило, как методы машинного обучения с необычайной точностью работают при таком огромном объёме данных в классификации и обнаружении различных микроскопических частиц. Сбитый с толку, я без колебаний глубоко погрузился в темы ML и облачных вычислений просто потому, что мне это понравилось!
Кто бы на Земле мог знать, что это разоблачение станет переломным моментом моей жизни!
Я страстно желал изучить эти темы, но имел смутное представление о том, что такое «наука о данных». Как бы туманно это ни звучало, я знал, что должен узнать больше, когда открою свою истинную страсть.
Углублённые исследования в Data Science
Вернувшись в Сингапур после стажировки, чтобы лучше понять науку о данных, я провёл исследование; к моему удивлению, чёткого определения этой области не было. Но в целом наука о данных может быть обобщена как комбинация навыков программирования, знаний математики, статистики и предметной области. Это объяснение ни в коем случае не исчерпывает вопрос, но проливает свет на определение.
Тем не менее я был поражён тем, как можно использовать данные, чтобы получить информацию и повысить ценность бизнеса. От понимания бизнес-проблемы, сбора и визуализации данных до прототипирования, точной настройки и развёртывания моделей в прикладных приложениях — во всём я нашёл удовольствие от решения сложных проблем при помощи данных — моя страсть начала обретать форму…
«Без данных ты просто ещё один человек с собственным мнением» (У. Эдвардс Деминг)
Моя отправная точка — визуализация данных
В августе 2017 года, чтобы познакомиться с визуализацией данных, я присоединился к NIC Face-Off Data competition, организованным Tableau совместно с Infocomm Media Development Authority (IMDA).
Этот опыт дал мне возможность использовать Tableau Public для визуализации различных открытых источников данных, которые исследовали происхождение тумана в Юго-Восточной Азии, чтобы представить практические идеи.
Первая стажировка с неполной занятостью в SMRT
В том же августе я наткнулся на возможность работать стажёром в mobilityX — стартапе, на начальном этапе финансируемом SMRT. Тогда я программировал на Python из-за удобочитаемости и поддержки широким сообществом. На самом деле я думал о том, чтобы отказаться от программирования, когда впервые начал изучать его на первом курсе колледжа: простой цикл for мог затормозить меня на несколько дней и даже недель! А хуже того — мысль «У меня просто нет таланта».
Интерес к программированию возник только в начале совместного с профессором исследовательского проекта на моём факультете; на третьем курсе этот проект потребовал разработки инструментов анализа данных. Как вы, возможно, ожидали, я начал изучать Python, чтобы создать эти инструменты, и просто влюбился в него! Прошли те дни, когда я говорил себе: «У меня просто нет таланта», и эти мысли сменились другими. Вот что я делал:
Разбирался с фундаментальной логикой программирования.
Выбрал язык программирования и изучил, как с ним работать (синтаксис и т. д.).
Затем — практика, практика, практика.
Повторял шаги 1–3.
Волнение в сторону, я расскажу, как учился
Стажировка на неполный рабочий день продолжалась до марта 2018 года, обучение оказалось плодотворным. Я изучил и выполнил очистку и обработку данных и их сбор с веб-страниц с помощью PostgreSQL и Python.
Чтобы пройти стажировку, один семестр я закончил с опережением
Весь предыдущий опыт укрепил страсть и заложил основу перехода в Data Science. Решившись, я спланировал расписание занятий и сумел закончить учёбу раньше, чтобы продолжить очную стажировку в Quantum Inventions в декабре 2017 года.
Здесь вы можете спросить, почему я пошёл на стажировку вместо того, чтобы работать полный рабочий день? Краткий ответ: чтобы получить больше технических знаний и попробовать полный цикл обработки данных с чистого листа, имея дело с реальными данными. В этом суть истории, с которой началось моё настоящее путешествие в науку о данных. В приведённом ниже списке я кратко рассказываю об обучении с помощью многих замечательных людей и различных онлайн-ресурсов.
1. Учебники
Самым первым учебником была книга «Введение в статистическое обучение с примерами на языке R». Я настоятельно рекомендую его начинающим: книга рассказывает о фундаментальных понятиях статистического моделирования и ML с подробными и интуитивно понятными объяснениями. Если вы хорошо разбираетесь в математике, вам понравится книга «Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование».
Упоминания заслуживают и другие учебники:
Python Machine Learning Себастьяна Рашки.
Data Science Handbook Джейка Вандерпласа.
2. Онлайн-курсы
Coursera. Machine Learning от основателя Coursera Эндрю Ына.
Я очарован его способностью разбивать сложные понятия на простые для усвоения составляющие. 11-недельный курс рассказывает об обучении с учителем, обучении без присмотра и передовых методах машинного обучения с практическим применением. Иногда, чтобы решить проблемы переобучения или недостаточного обучения ML, я ссылаюсь на конспекты лекций.
Udemy. Python for Data Science and Machine Learning Bootcamp, где преподаёт Хосе Портилья.
Этот курс начинается с изучения основ Python и переходит к пошаговому руководству о том, как реализовать различные подходы машинного и глубокого обучения при помощи scikit-learn и tensorflow. Он дал мне отличный обзор библиотек Python для реализации моделей машинного обучения.
Настоятельно рекомендую мой любимый курс Deep Learning A-Z: Hands-On Artificial Neural Networks, который преподают Кирилл Ерёменко и Хаделин де Понтевес.
Этот курс — моё первое знакомство с глубоким обучением, и, поверьте мне, он действительно единственный в своём роде, с большим акцентом на инстинктивный уровень понимания и практическими работами по программированию ML с учителем и без учителя.
Lynda. Python for Data Science Essential Training преподаёт Лилиан Пирсон. На курсе даются основы сбора и визуализации данных и другой статистический анализ.
3. LinkedIn
Cоздайте учётную запись LinkedIn, если у вас её нет. LinkedIn — мощная платформа со сплочённым сообществом исследователей данных. Среда совместного обучения удивительна тем, что люди готовы делиться опытом, мыслями и знаниями, чтобы помочь другим. На LinkedIn я учусь больше всего, будь то технические знания, советы по карьере и не только. Есть место, где специалисты Data Science собираются раз в неделю, чтобы провести вебинар, обсудить основы и дать представление о них (подготовка данных, извлечение признаков, визуализация и т. д.).
4. Другие ресурсы
Большинство новичков тонут в океане ресурсов (как и я). Один из моих друзей в LinkedIn Рэнди Лао поделился богатым списком постоянно обновляемых ресурсов по Data Science.
Портфолио
Поскольку у меня степень бакалавра наук по физике и нет степени в области компьютерных наук, а также соответствующего опыта в течение первых трёх лет учёбы в колледже, в дополнение к изучению широких тем из массовых открытых онлайн-курсов мне необходимо было создавать портфолио. Это важно, потому что в конце концов компании хотят знать, чему вы научились и какой вклад вы можете внести, чтобы повысить ценность бизнеса.
Портфолио — одна из причин, по которой я решил продолжить стажировку и совмещал её с обучением на массовых открытых онлайн-курсах. Я также работаю волонтёром в организации данных DataKind, помогая некоммерческим организациям решать проблемы, чтобы усилить их общественное влияние.
Наконец, я всегда хотел участвовать в соревнованиях Kaggle, а недавно у меня появилась возможность присоединиться к соревнованию по машинному обучению с друзьями на Kaggle от Shopee и Института инженерии и технологий (IET). Я благодарен им за то, что стал частью команды и многому у них научился. Тогда я впервые присоединился к соревнованию и узнал, как использовать свёрточные нейронные сети (CNN) и трансферное обучение для распознавания изображений. Кривая обучения была крутой, но путешествие оказалось полезным.
Заключительные мысли
Найдите любимую работу — и вам не придётся работать ни дня.
На сегодня всё. Надеюсь, я пролил свет на индустрию науки о данных и сделал обучение не таким страшным, но более увлекательным и доступным! Никогда у меня не возникало мысли «чем больше я учусь, тем больше мне нужно учиться», пока я не столкнулся с наукой о данных, которая бросает вызов и приносит удовольствие. Надеюсь, этот пост вдохновит вас на то, чтобы следовать своей страсти, несмотря на трудности.
История автора напоминает, что для целеустремлённого человека нет ничего невозможного, даже когда в самом начале пути охватывают большие сомнения. Главное — поставить цель и двигаться к ней шаг за шагом. В этом вам поможет наш курс по Data Science, он состоит из 20 % теории и 80 % практики и рассчитан на 13 проектов в портфолио. Курс длится два года и завершается специализацией в машинном обучении по вашему выбору, а после обучения вы сможете поработать с HR, чтобы найти работу по душе. Также вы можете узнать, как начать развиваться или вывести свои навыки на новый уровень в других направлениях:
Data Science и Machine Learning
Python, веб-разработка
Мобильная разработка
Java и C#
От основ — в глубину
А также: