Как вы наверное знаете мы уже запустили много интересных учебных программ IT-магистратуры в МАИ. Есть у нас программа для менеджеров продуктов, где мы прокачиваем навыки работы с IT-продуктом, много программ для ML специалистов и приложению машинного обучения для разных целей, найдут свои программы и бэкэндеры и специалисты по инфобезу и другие участники IT-сообщества.

При этом раньше мы как-то обходили вниманием такую интересную профессию, как ML-инженер. Про создание программы обучения для ML-инженеров "Большие данные и машинное обучение", да ещё и за один год и пойдет речь в этой статье.

Однако, мы же не какая-то "лавочка" которая обещает всё и сразу и выдает красивые бумажки дипломы собственного образца. А значит должны готовить программы в соответствии с требованиями Государства и по Федеральным образовательным стандартам ФГОС 3+, 4+, 5+, СУОС не хуже ФГОС... с РОПами, ФОСами и другими аббревиатурами, которые умеет делать Chat GPT 4o документами, которые постоянно меняются и содержат порой бесполезные очень важные для IT требования по изучению всяких компетенций, в духе:

# ФГОС 01.04.02 Прикладная математика и информатика
competention = {'UK-4': 'Способен применять современные коммуникативные технологии, в том числе на иностранном(ых) языке(ах), для академического и профессионального взаимодействия',
                'UK-5': 'Способен анализировать и учитывать разнообразие культур в процессе межкультурного взаимодействия',
                'UK-6': 'Способен определять и реализовывать приоритеты собственной деятельности и способы ее совершенствования на основе самооценки'}

Мы в целом за высокую самооценку наших студентов, но тратить время на развитие этой важной части жизни как-то не хочется. Для этого есть целая армия коучей и специалистов личностного роста.

Сгенерировано сетью KandinskyЗапрос: великий коуч
Сгенерировано сетью Kandinsky
Запрос: великий коуч

В итоге в программах обучения остаются дисциплины общие для всех направлений - Культурология, Иностранный язык, Философия. В целом для обычных магистратур это может и хорошо, но это лишняя нагрузка и если быть честными, то все айтишники прекрасно читают на Английском описания репозитариев github'а и документацию по разным либам и софтинам программным продуктам, а многие кто поступают в магистратуру уже имеют уровень языка B2 и выше общаясь с индусами в discord'e с коллегами из разных стран. Да и с межкультурным взаимодействием у поступающих уже всё в порядке.

И вот в 2024 году нам в МАИ, как и в ещё 6 ведущих университетах разрешили формировать программы специализированного высшего образования на основании собственных требований! Ура! Нам наконец-то доверили самим собирать программы и определять стандарты обучения, которые у нас просят IT-компании и те кто хочет прокачать определенные навыки.

Оставляем только то что нужно

Итак, первым делом производим этап глубокого отжима всего лишнего из программы - это Иностранный язык, лишние часы НИР и Практик (не два же года практиковаться), а также Культурология, Философия, Психология и Межкультурные коммуникации.

Сгенерировано сетью KandinskyЗапрос: глубокий отжим
Сгенерировано сетью Kandinsky
Запрос: глубокий отжим

Определяемся кого мы хотим получить после года обучения! По итогам нашего анализа вакансий сейчас очень востребованы ML-инженеры, причем с навыками работы в области больших данных. Естественно первым делом мы пообщались со специалистами из таких компаний как Сбер, Cloud, Яндекс, Т1 и многими другими, где уже работают наши выпускники.

Собираем и структурируем основные запросы которые были озвучены для ML-инженера:

  1. Программирование на Python для разработки алгоритмов ML

  2. Глубокое понимание ML алгоритмов (математика, программирование)

  3. Обработка больших данных (очистка, преобразование и визуализация)

  4. Работа с решениями для BigData (Apache Hadoop, Spark или Kafka)

  5. Умение оценивать внешние и внутренние метрики моделей ML (т.е. не только внутренние - MSE, F1 и др., но и время работы моделей на железе и т.п.)

  6. DevOps и MLOps (причем и то и другое)

  7. Быстрое прототипирование ML продуктов - чтобы можно было пощупать результат работы

  8. Коммуникация и работа в команде (ну куда же мы без Soft Skills)

Проектируем программу

Можно подлиннее, а можно и покороче
Можно подлиннее, а можно и покороче

Исходя из этого мы и начали строить программу. Первым делом сформировали основные дисциплины и определили связи между ними. Продумали что должно быть в начале, а что уже нужно знать чтобы перейти к следующим блокам обучения.

Вот что получилось включить для обучения осенью:

  1. Python: Продвинутый уровень со всеми нужными библиотеками для работы

  2. Базы данных: продвинутый уровень - про большие и очень большие базы данных и как это всё работает

  3. Математика для DataScience - да да, математика и ещё раз математика - без неё не поймешь как всё это работает

  4. Машинное обучение - вот тут про модели и их метрики

К профильному блоку дополнили и часть по развитию смежных навыков и софтов:

  1. На выбор: Продуктовый дизайн и прототипирование AI-продуктов для тех кто хочет погрузиться в продуктовую часть или Фронтенд-разработка для систем искусственного интеллекта, кому более интересно как это всё работает "под капотом"

  2. Фундаментальные и перспективные концепции искусственного интеллекта для понимания куда мы все идём и как изменится наш мир когда мы создадим сильный ИИ

  3. Гибкие методологии разработки - развитие навыков работы в команде по разным технологиям Agile.

Ну и прямо с начала обучения стартует проектная практика с куратором - практика, практика и ещё раз практика. И так до Нового года!

Новый 2025 год
Новый 2025 год

А на весну те кто выживут уже прокаченные в ML студенты будут изучать более сложные курсы для глубокого погружения:

  1. Глубокое обучение и обучение с подкреплением

  2. Глубокие генеративные модели

  3. Сбор, генерация и разметка данных для машинного обучения (естественно не "ручками")

  4. Контейнеризация и оркестрация приложений

Плюс и в этом полугодии будет выбор в части специализации. Наши партнеры выделили два больших направления для специализации - LLM или большие языковые модели и вопросы визуализации данных, причем для различных приложений. Исходя из этого получился вот такой блок на выбор:

  1. Глубокое обучение и обработка естественного языка (Большие языковые модели) или Компьютерная графика и дизайн на базе искусственного интеллекта

  2. Разработка основанных на данных решений и предиктивная аналитика или Бизнес-аналитика и BI для больших данных

  3. Проектирование и разработка рекомендательных систем / Анализ и визуализация данных в интеллектуальных системах

Конечно, в этом полугодии тоже будет много практики. И завершается всё это защитой дипломного проекта.

Для того чтобы вам было комфортно учиться у нас есть свой ИТ-этаж с удобными лабораториями и кучей проектных команд. Так что приходите к нам!

Помещения ИТ-Центра с нашей робособакой Дорой и два супервычислителя для проектов
Помещения ИТ-Центра с нашей робособакой Дорой и два супервычислителя для проектов

Вот такая получилась программа обучения.

Как поступить

Этапы поступления на программу специализированного высшего образования - магистратуры "Большие данные и машинное обучение":

  1. Подайте заявление до 5 сентября через личный кабинет абитуриента МАИ. У вас уже должно быть высшее образование по программам бакалавриата или специалитета.

  2. Сдайте вступительный экзамен, который состоится 10 сентября.

  3. Заключите и оплатите договор. Стоимость обучения составляет 148 650 рублей за семестр и 297 300 рублей за весь период обучения.

  4. Ожидайте приказа о зачислении 28 сентября.

  5. Старт обучения — 1 октября.

Кому понравилось, можно залететь к нам в чат телеграм - ждем вас у нас!

Комментарии (4)


  1. schulzr
    27.08.2024 22:09

    Спасибо за статью.

    А не просветите какая может быть примерная программа этого курса:

    "Базы данных: продвинутый уровень - про большие и очень большие базы данных и как это всё работает"

    может быть посоветуете доступную и правильную литературы или курсы, чтобы более-менее исправить свою безграмотность в вопросах больших баз данных? Спасибо


    1. itmai Автор
      27.08.2024 22:09
      +1

      Примерный набор тем, входящих в продвинутый курс по большим базам данных:

      • Высшие нормальные формы (4NF, 5NF, 6NF) отношений и их практическое применение

      • Распределённые хранилища данных, CAP-теорема и свойства BASE

      • Управление транзакциями в распределённых СУБД

      • Подходы SQL/NoSQL для взаимодействия с БД

      • NoSQL-СУБД (например, Redis, Memcached)

      • Технология Apache Calcite для организации SQL-запросов к собственноручно реализованной СУБД

      • Механизм прогрева кэша

      ... и многое другое "Как это всё работает" - на самом деле тут стоит отталкиваться от конкретной рассматриваемой СУБД, которых довольно большое множество (например, ClickHouse, Apache HBase, Apache Cassandra, Apache Ignite, Azure Cosmo DB и т.д., перечислять здесь можно очень долго =))


  1. BosonBeard
    27.08.2024 22:09

    Редкий случай, когда статья про рекламу обучения сработала, я прям даже может задумаюсь на следующий год.


    1. itmai Автор
      27.08.2024 22:09
      +1

      30 августа, в 18:00 по Московскому времени состоится онлайн встреча, так что можно и в этом году ;) чего год терять, плюс у нас программы каждый год обновляются :)