![](https://habrastorage.org/getpro/habr/upload_files/6a3/cd4/9cf/6a3cd49cf47cb80475804dac14ab7111.png)
Определимся с терминологией. Можно найти c десяток формулировок «AutoML- это…» с разной степенью детализации. Но все они сведутся к словам «AutoML — автоматизирует и упрощает работу с данными». И вот здесь как раз и начинаются сложности. Границы определения AutoML размыты. Есть фреймворки работающие на «3 строчках» кода, есть с платформы с GUI, есть библиотеки для профессионалов и новичков.
В AutoML идут по нескольким причинам: по неопытности, из-за лени, от нехватки времени, из-за большого ума. Автор, скорее относится к первым трем категориям.
Пожалуй, основное, что надо понимать, впуская AutoML в свои проекты – это не волшебная таблетка для всех задач. Для каждого типа проблем мы можем использовать свой инструмент. Мне скорее нравится смотреть на подмножество AutoML как на комнату инженера-ремесленника, где собраны шурупы, отвертки, молотки, дрели, станки и шлифовальные машины. Войти в эту комнату просто, а вот выбрать нужный инструмент, получить результат и выйти из комнаты без травм не всегда получается.
В каких прикладных задачах AutoML может помочь?
Подготовка данных для моделей
EDA
Feature Engineering
Отбор моделей и их параметров
Объяснимость моделей
Блендинг, стекинг
вывод в жизнь*
— если для табличных данных и классических ML задач, решаемых через регрессии и классификации, AutoML будет точно хорош, то с временными рядами, мультимодальными данными и выводом решений в жизнь есть вопросики.
Что из AutoML попробовать?
Ниже приведу краткий справочник по инструментарию AutoML (актуально на май 2024)
![](https://habrastorage.org/getpro/habr/upload_files/897/cdc/e3c/897cdce3c7a7edcde3e0ca42983d33f8.png)
AutoGluon — "Fast and Accurate ML in 3 Lines of Code". Библиотека от парней из Amazon. В 2023-2024 году AutoGluon, пожалуй, самая перспективная библиотека, которая выжмет из данных все. Однако, замечу, что про 3 строчки кода упомянутые выше, это все же про маркетинг. API имеет не одну страницу документации. В AG есть три модуля: Tabular, Multimodal, Time-series. Суперсила AG - это блендинг и стекинг моделей.
![](https://habrastorage.org/getpro/habr/upload_files/e85/655/0f2/e856550f2761e80185a8d7e1d56ced49.png)
H2O-3 – AutoML библиотека от H2Oai. Сделана и поддерживается блестящей командой дата саентистов, имена которых вы можете видеть в топе практически любого соревнования на Kaggle. Суперсила этой библиотеки - это Java на котором она написана, GUI и Python интерфейсы.
![](https://habrastorage.org/getpro/habr/upload_files/9e6/d80/fb6/9e6d80fb677acbdf0eef756d0f199f9e.png)
DriverlessAI – коммерческий продукт и платформа от H2O. Если в организации есть свободные внушительные бюджеты на data science, то на DriverlessAI ваши датасаентисты будут чувствовать себя как дети в магазине со сладостями. Просто взгляните на этот интерфейс….
![](https://habrastorage.org/getpro/habr/upload_files/a72/9e8/d63/a729e8d634726e5ad896b78096580d66.png)
Впрочем, если есть бюджет на DriverlessAI, то зачем вам команда дата саентистов?
![](https://habrastorage.org/getpro/habr/upload_files/9b2/25d/0e8/9b225d0e81749730ecec2909e22c952d.png)
BlueCast – фреймворк создаваемый одним разработчиком, кэгглером и энтузиастом Томасом Мейсснером. Суперсила BlueCast в EDA, объяснимости моделей, скорости и философии продукта. Томас на Kaggle создал множество ноутбуков с примерами использования, и за год BlueCast серьезно вырос. Поддержите автора звездой на GitHub, это крайне для него важно.
![](https://habrastorage.org/getpro/habr/upload_files/877/cc3/20d/877cc320d3d777962296d467ab6d3e8e.png)
LightAutoML (LAMA) – мощный open-source AutoML фреймворк за которым стоит одна из сильнейших по экспертизе DS команд из Sber AI Lab. Суперсила LAMA – это бленды и настраиваемые эксперименты. В то же время LAMA скорее скальпель для профессионалов,. Давно не было обновления, очень надеюсь, что мы увидим его в ближайшее время.
![](https://habrastorage.org/getpro/habr/upload_files/354/95e/074/35495e074bee88a13f01d4177d0a8193.png)
MLJAR – AutoML проект созданный в 2016 году. Продолжает регулярно обновляться и поддерживается создателями. Суперсила MLJAR в стабильности и простоте настроек. Практически в любом тесте / сравнении AutoML фреймворков MLJAR будет рядом с лидерами.
![](https://habrastorage.org/getpro/habr/upload_files/833/c0a/6c0/833c0a6c07b87ec0e982f93e9ac79861.png)
PyCaret – Low-Code Machine Learning. Известный Open Source проект, создаваемый Moez Ali и энтузиастами. Более 8 тыс звезд на GitHub. Суперсила PyCaret в модульности, low-code подходе и документации. Если вы новичок в DS и хотите попробовать AutoML, а заодно понять, что там происходит под капотом, то начните с PyCaret и их отличного сайта.
О чем в AutoML не смог (но хотел бы) рассказать ?
Несколько заметных AutoML о которых, надеюсь, кто-то сможет рассказать в комментариях:
Что по AutoML бенчмаркам?
Если хочется сравнивать AutoML не субъективно, а по результату, то пожалуй это свежее исследование - идеальная отправная точка:
AMLB: an AutoML Benchmark
https://jmlr.org/papers/volume25/22-0493/22-0493.pdf
https://automlbenchmark.streamlit.app/
Такую картинку вы увидите на большинстве тестов:
![](https://habrastorage.org/getpro/habr/upload_files/69b/1d1/af7/69b1d1af7031bd1526036114cf530948.png)
![](https://habrastorage.org/getpro/habr/upload_files/2aa/d3f/6fc/2aad3f6fc644d79d59a2c284e66d6a3b.png)
![](https://habrastorage.org/getpro/habr/upload_files/fcb/876/50f/fcb87650fac5d15d971d4c6331961e5d.png)
![](https://habrastorage.org/getpro/habr/upload_files/b92/26a/dcb/b9226adcba655bd14bcbc3ba8bbb73b6.png)
Где испытать AutoML в 2024?
1 мая 2024 на Kaggle стартует 2024 AutoML Gran Prix. Это 5-ти месячное соревнование-хакатон живущее параллельной жизнью в соревнованиях плейграунд.
Впрочем, по своей философии это соревнование не про выбор лучшего AutoML фреймворка, а про «у вас есть 24 часа – делайте, что хотите» и как раз с такой формулировкой можно в это соревнование вписаться.
Kentuss16
По выводам не понял где новичок может без знания языка попробовать дообучить или обучить свою модель для нужных целей и где это проще всего сделать платно и бесплатно?
koch Автор
Уточните пожалуйста - без знания языка какого? И пример задачи, которую новичок решает?