Меня зовут Андрей Аврамчук aka @Mimizavr, я старший продюсер спецпроектов в Хабре, принёс не ответ на главный вопрос, а пока только новый сезон на Хабре — «Машинное обучение», который мы проводим совместно с ВТБ с 1 по 31 марта. Будем искать вместе, и да поможет нам магия ML.

Какой станет наша жизнь ещё через 10 лет развития машинного обучения? Как изменятся повседневные сервисы? Чего смогут добиться инженеры? Мы попросили нескольких хабраавторов рассказать про обычный день в 2033 году. Из их ответов мы собрали историю, которая станет возможной благодаря развитию технологий ML.

Рабочие Земли, мы принесли вам историю из одного дня в 2033 году…

Вадим Шевяков

aka @Sirion

…Сегодня проснулся от характерного «ук-ук-ук-ук». Вскочил с кровати как ошпаренный. Какая из наших двух кошек блюёт? Посмотрел на экран смартфона, тихо и с облегчением матюкнулся.

Умный будильник знал, что накануне я засиделся допоздна. Чтобы разбудить человека, спавшего четыре часа, нужны экстренные меры. А для котовладельца со стажем не может быть ничего экстреннее «ук-ук-ук-ук».

Очень умный будильник, так и придушил бы в благодарных объятиях…

Николай Маслухин

aka@Maslukhin

…А дальше был такой диалог с моей ИИ-помощницей Йенифер:

— Доброе утро, Йенифер, как у нас дела?

— Доброе утро. Сегодня дождь, поэтому я не стала вас будить на пробежку. Тем более что последние 324 раза вы на неё не ходили.

— Спасибо.

— Я бы и сейчас не стала вас будить, но в календаре две встречи в офисе. Я пыталась их перенести, но ИИ на той стороне говорит, что одна из встреч — передача вам премиального золота и вам очень-очень надо приехать.

— Убедила, едем…

Александр Казанцев

aka@akdengi

…До выходных — целых два дня. В обществе уже поднимается вопрос, что мы настолько обучили ИИ, что работать не надо. Но некоторые выступают за возврат 3-дневной недели и 6-часового рабочего дня.

Одна из моих работ — в университете. Я веду предмет «Этика в андроидных системах», и сегодня мы учились настраивать блоки в направлениях, которые для андроида (и для человека, взаимодействующего с ним) не будут разрушительными. 

Помните, раньше я писал тексты и рисовал? А теперь пишу запросы, нахожу ошибки и исправляю этически некорректные вещи в них. Хотя проблему с общественными нормами при обучении ИИ подняли ещё 10–15 лет назад, до сих пор не получается строго задать ограничения. А профессия дизайнера и автора умерла в масс-маркете, став доступной миллионам. Некоторые авторы теперь не выкладывают произведения в Сеть, чтобы их не захватил и не переварил машинный разум…

Вадим Шевяков

aka @Sirion

…Потом я пришёл в офис, уселся в любимое кресло, РазраБОТчик уже сформировал пул-реквест, а ТестИИровщик уже дал предварительный апрув. Я пробежался глазами по коду. В целом почти всё написано корректно. Вот этот кастомный контрол всё же придётся переписать руками — РазраБОТчик не до конца понял требования заказчика. Пара мест реализована недостаточно гибко — я знаю, что в будущем там придётся нарастить новый функционал. Нажал в IDE кнопку «РефакторИИнг», дал подсказки, в какую сторону копать.

Пора домой. Прикинув время на сборы, запустил приложение MLshrootka и нажал кнопку «10 минут». Когда вышел из офиса, умная маршрутка как раз выезжала из-за угла. Такси каждый день — это всё-таки неэкономично. MLshrootka — другое дело. Гибко планируя маршрут в реальном времени, она доставляет пассажиров пусть и медленнее такси, зато в разы дешевле. Да и пробок в городе с каждым годом становится чуть меньше…

Олег Плотников

aka @Interfer

…Подошёл к подъезду, умный домофон приятным женским голосом сообщил, что горячей воды не будет ещё пять дней, а завтра запланированы работы в лифтовой шахте. То есть, резюмирует железяка, вы сожжёте минимум сто калорий, пока подниметесь на девятый этаж…

Сергей Парамонов

aka @varagian

…Система поняла, что я не успею приготовить ужин и заказала доставку. После я собирался на тренировку, но она сказала, что мне лучше посмотреть фильм — сон был не слишком качественный и организм не восстановился. Уже подобрала кино под интересы и дату…

Олег Плотников

aka @Interfer

…Ей попросту надо выбрать красивую антиутопию, желательно со Смешариками. Она отлично знает мои предпочтения, но дочка на том же аккаунте постоянно сбивает её алгоритмы. Алиса подозревает, что за учётной записью стоят два человека, однако до конца не уверена, кто всё-таки смотрел Шрека на прошлой неделе (спойлер: я)...

Вадим Шевяков

aka @Sirion

…Как же неохота идти спать. Но ещё меньше хочется просыпаться от «ук-ук-ук-ук».


А расскажите теперь вы о том, как машинное обучение меняет это будущее уже сегодня

Что всё это значит и зачем нужно

Технотекстам на узкие темы труднее набирать просмотры и рейтинг, чем статьям про выгорание, деньги и собеседования. Но Хабр придумал способ восстановить справедливость и дать техноавторам ту славу, которую они заслуживают. С лета 2022 года мы проводим сезоны Хабра — конкурсы узкопрофильных статей. Один сезон — одна дисциплина. Продолжительность — полтора месяца. Любой хабраавтор (авторы из корпблогов — тоже) может прислать свой текст и участвовать в гонке за призы.

В результате автор самой рейтинговой статьи забирает главный приз (в этом сезоне — MacBook Air), победитель сезона — грант 30 К на то, чтобы написать ещё текст. Все участники получают бесплатное продвижение сезонных статей в соцсетях.

Требования к статьям

  • Мы ждём статьи, основанные на личном опыте и собственной экспертизе: опыт разработки и использования инструментов ML, инструкции по решению задач и проблем, собственное профессиональное мнение и взгляд на развитие этих технологий.

  • Статьи должны быть полезны другим пользователям и читателям: помогать в работе, разбивать предрассудки, решать профессиональные задачи.

  • Только технохардкор. Нам интересны подробности, нюансы, детали, самые мелкие особенности, — это самый смак.

  • В центре внимания статей — ML. Применение в реальных задачах, настройка инфраструктуры, подготовка данных, новые подходы к обучению.

  • Без лишней рекламы или антирекламы. Можно упоминать бренды там, где это уместно, но посвятить статью пиару своего продукта или компании или знатно набросить на конкурентов не получится: все заявки вычитывают люди, а не ChatGPT, так что всё тайное станет явным.

Правила сезона

  • Сезон ML пройдёт с 1 по 31 марта. 

  • Побеждает статья с наивысшим рейтингом: голосование идёт на протяжении всего сезона, а результаты объявим сразу по завершении.

  • Один автор может прислать несколько заявок. Больше статей — выше шанс победить, а то и взять всё — от золота до бронзы. Кроме новых текстов принимаем и статьи, опубликованные после 14 февраля. Заявки принимаем до 23:59:59 31 марта.

  • Участвовать могут даже авторы из «Песочницы» — тут ограничений нет. 

Призы и слава

  • Замолвим за вас словечко перед Skynet и Матрицей — выдадим всем авторам плашку «Участник сезона ML», а победителю достанется значок «Победитель сезона ML» и дополнительный инвайт на Хабр. Машины вас не забудут.

  • Автору самой рейтинговой статьи достанется Apple MacBook Air 13.

  • Грант на 30 000 рублей для подготовки ещё одной классной статьи (если на новую статью нет времени, грант можно передать другому участнику).

  • Участие в конференции ВТБ по машинному обучению, анализу данных и технологиям ИИ Data Fusion.

Как подать заявку

  1. Написать текст в хаб Машинное обучение. Если сомневаетесь, подойдёт ли тема; думаете, как лучше подать, что будет интересно и полезно аудитории; сомневаетесь, что в вашей работе есть интересное и полезное для аудитории — можно спросить у меня в личке — @Mimizavr. Я выступлю в роли робота Марвина :)

  1. При публикации добавить к статье тег «cезон machine learning». Можно прикрепить этот тег и к старой статье — но только если она опубликована после 14 февраля 2023 г.

  1. Если статья подойдёт под критерии сезона, у неё под заголовком появится специальная плашка. А ещё статья попадёт в список участников (следующий пункт в этом анонсе). 

Вуаля! Вы на борту «Золотого Сердца» :)

Статьи-участники

Как воспитать GPT-3 модель в домашних условиях
Мы решили проверить технологию, на которой основан ChatGPT, посмотреть актуальное состояние open-source GPT-3-like моделей и ответить на вопрос — можно ли обучить GPT-3-like модель в домашних условиях? Для эксперимента выбрали GPT-J и не самый мощный ПК с видеокартой Nvidia GTX 1080TI с 11 GB VRAM. Оказалось, что этого достаточно не только, чтобы загрузить модель, но и дообучить ее (fine-tune). Рассказываем — как мы это сделали.


Обучение VAE и нижняя вариационная граница
Объяснение принципа обучения вариационного автокодировщика для генерации картинок. Как мне показалось, прочим статьям на эту тему не хватает необходимых для понимания уточнений. Кроме того, часто некоторые математически важные аспекты опускаются как очевидные, чего я пытался избежать.


Как мы нейросеть в браузер тащили
Задача пришла ко мне от моих институтских друзей из ИВМ РАН. Есть некий фронтенд, на который доктор загружает КТ снимок. Доктору предлагается при помощи веб интерфейса выделить сектор с сердцем, который будет передан на сервер, где алгоритмически отсегментируется граф аорты для последующего анализа. Меня попросили сделать нейросеть для выделения 3d сектора с сердцем, а затрачиваемое время не должно превышать 2-3 секунд. Гонять весь КТ снимок на сервер только за координатами накладно, т.к. КТ снимок обычно состоит из 600-800 кадров размера 512 * 512 пикселей, поэтому мое предложение о браузерном варианте пришлось кстати.


AIGod — распознавание объектов
В настоящее время искусственный интеллект все больше внедряется в повседневную жизнь, тем самым облегчая и ускоряя некоторые процессы. Распознавание объектов есть одним из ключевых моментов в ИИ, а именно это необходимо для того, чтобы программа понимала что перед ней находится и что с этим дальше делать. Это, скажем требование, уже используется довольно таки часто во многих средах с участием ИИ, например: ведение автотранспорта без участия человека, в поиске определенных людей или же вещей, и многое другое где это применяется и еще может применяться. Чтобы выполнить такую задачу, уже достаточно имеется программ которые могут это выполнять и постоянно этот список пополняется. Исключением не стало и данное ПО под названием AIGod.


Neural Network Optimization: океан в капле
Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов —  оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем. Более крупные модели занимают больше места для хранения, что затрудняет их распространение. Более крупные модели требуют больше времени для работы и могут потребовать более дорогого оборудования. Это особенно важно, если вы создаете модель для приложения, работающего в реальном времени. Оптимизация моделей направлена на уменьшение размера моделей при минимизации потерь в точности и производительности.


Progressive_plots или ускоряем построение графиков
Здравствуйте, меня зовут Николай Стрекопытов и большую часть карьеры я работал на стыке R&D и Deep Learning и в задачах возникающих в этих нишах часто невозможно написать какие-то автотесты и не всегда понятно где вообще может быть проблема. Я подумал, что можно вычислять значения функции в узлах не в порядке "перебираем каждую строчку столбца, а затем переключаемся на следующий столбец", а в каком-то более хитром порядке. В этой статье я хочу описать как я разработал прототип библиотеки, которая решает эту задачу и в комментариях с удовольствием вычитаю дельные замечания.


Первая бесплатная модель перевода с русского на китайский язык и обратно
Представляю вашему вниманию, первую бесплатную offline модель по переводу с русского языка на китайский и обратно. Ранее, я писал, как можно достаточно легко обучить свою модель по машинному переводу на примере перевода с английского на русский. В этот раз я решил, реализовать, модель перевода с китайского языка, так как давно хотел и о чем заявлял в комментариях к предыдущей своей статье.


Как мы улучшаем выделение интентов в наших продуктах
Привет, Хабр! На связи Мурат Апишев, руководитель направления NLP R&D в Just AI. Одним из ключевых направлений компании является разработка инструментов для создания голосовых и чат-ботов. Задача создания классификатора интентов в таких проектах является краеугольным камнем, и в этой статье я бы хотел поделиться некоторыми апдейтами наших продуктов в этом направлении. Речь пойдет о внедрении моделей классификации и парафраза на основе трансформеров. Приятного чтения!


Подробно рассматриваем обратное распространение ошибки для простой нейронной сети. Численный пример
В данной статье мы рассмотрим прямое распространение сигнала и обратное распространение ошибки в полносвязной нейронной сети. В результате получим весь набор формул, необходимых для её программной реализации. В завершении статьи приведён численный пример. Надеемся, что статья будет интересной и полезной для всех, кто приступает к изучению глубинного обучения и нейронных сетей!


True RND или что делать с обученной моделью (опыт чайника)
Когда то давно на просторах интернета читал статью о генерации по настоящему случайного пароля. Суть сводилась к тому что для реализации рандома нужно натурально бросать игральные кости. Отличная идея, для небольшого pet проекта и для того чтобы проникнуть в основы ML. Попробуем научить компьютер бросать настоящие кости, находить их на изображении с веб камеры и понимать что на них выпало. И так, из подручных материалов делаем стенд для бросания костей.


Как я делаю OCR — Часть 2
В предыдущей статье я рассказывал как собираю данные для детектирования текста на изображениях. Теперь используя собранный набор данных попробуем натренировать одну из самых популярных сетей для сегментации и детектирования объектов YOLOv5. Для этого будем использовать бесплатный Google Colab.


Прости нас, Джон Коннор, или Как мы научили нейросеть точечно распознавать звуки выстрелов
Привет, Хабр! Меня зовут Антон Рябых, работаю в Doubletapp и в этой статье расскажу про технические детали применения машинного обучения в проекте HitFactor. Что такое hit factor? На соревнованиях по практической стрельбе спортсмены быстро перемещаются, меняют магазин и стреляют по разным, в том числе и подвижным мишеням. Hit factor — это результат соревнования, то есть количество набранных очков, деленное на время прохождения.  Нам рассказали об этом чемпионы мира по практической стрельбе Алена Карелина и Роман Халитов, которым нужно было мобильное приложение для помощи в тренировках. Двигаться экономнее, стрелять быстрее — анализ записи тренировки поможет понять, как сократить время на прохождение упражнения и повысить эффективность.


Учим нейросеть принимать решения на основе уже известного опыта (на примере Шахмат и загруженного датасета)
Учим нейросеть играть в Шахматы, загрузив в нее датасеты уже сыгранных партий с известным результатом.То есть никакого минимакса, деревьев и расчетов на несколько ходов вперед. Идея в том, что если в нейросеть загрузить много партий, уже сыгранныx другими игроками, то нейросеть будет знать, как поступали другие игроки в соответствующих случаях и к какому результату это приводило. Нейросеть обобщит имеющийся опыт и будет делать ход на основе уже известного опыта и выявленных закономерностей, причем делать ход «мгновенно».


Как мы подружили ML и биореакторы
Мы Data Science команда биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы применяем машинное обучение при производстве лекарственных средств и с какими задачами сталкиваемся для оптимизации технологического процесса культивирования белка.


HalvingSearch: ускорение поиска по сетке (grid search). Библиотека sklearn
Подбор гиперпараметров модели – одна из самых распространенных задач в data science. Если заранее неизвестно, какими могут быть оптимальные значения, приходится искать по сетке значений. Если у нас есть m гиперпараметров и для каждого задано n возможных значений, то число вариантов равно mn и для каждого нужно обучить модель и определить ее точность. Если мы используем перекрестную проверку (cross-validation), то это число надо умножить на число частей, на которые мы разбиваем набор данных. Есть ряд алгоритмов оптимизации поиска, например байесовский – «осмысленный» поиск, при котором рассматриваются не все возможные сочетания гиперпараметров. Относительно недавно sklearn был реализован еще один метод – halving search.


Снова о распознавании рукописного текста, на этот раз с помощью CRNN
Нейронные сети в частности и машинное обучение в целом демонстрируют потрясающие результаты в тех областях науки и техники, в которых от них никто не ожидал этого еще лет 10 назад. Уже на текущий момент модели машинного обучения превзошли человека в задачах классификации, распознавания, предсказания и даже в некоторых играх человек не способен конкурировать c ними…
Задача классификации изображений на датасете ImageNet – ярчайший пример того, что нейросети превзошли человека (внимание: еще в 2016 году).


ChatGPT: новый инструмент в борьбе с багами. Как можно использовать AI для повышения качества тестирования
Всем привет! Я QA Engineer и недавно открыл для себя ChatGPT и хочу открыть этот мир другим тестировщикам. Эта статья не руководство к применению и каких-то суперлайфхаков здесь не будет. Цель этой статьи в том, чтобы показать огромные возможности нейросетей в помощи нам, тестировщикам, в работе. Надеюсь что кто-то, прочитав это, хоть немного сможет облегчить себе составление тест-кейсов, написание документации или написание автотестов.


Отгадай слово: как мы создали игру с элементами машинного обучения и вышли в ноль за 2 месяца
Как думает искусственный интеллект? Попробовать разобраться в его логике можно в игре от менторов AI Talent Hub, онлайн-магистратуры Napoleon IT и ИТМО, и студентов ИТМО «Отгадай слово». За два месяца в нее сыграли уже более 107 тысяч уникальных пользователей, а количество подписчиков одноименного телеграм-канала увеличилось до 5 000.Что делает игру такой популярной, как проект окупился без затрат на продвижение и рекламы на сайте, а также почему при работе с ИИ не избежать ошибок? Рассказываем в статье.


NORUAS — домашний Саурон, но это не точно…
В этой статье я хочу поделиться опытом создания еще одного "умного" устройства, умеющего при помощи компьютерного зрения идентифицировать людей по принципу свой-чужой и, исходя из этого управлять доступом в помещение. Сразу отмечу, что представленное устройства является проектной работой моего сына, с которой он участвовал в городской научно-практической конференции. Так что формально я не являюсь автором данного проекта, но будучи глубоко вовлеченный в разработку в качестве технического консультанта, с согласия автора идеи я решился на написание данного эпоса.


Все, что вы хотели знать о задаче определения остаточного ресурса оборудования
Применение искусственного интеллекта и машинного обучения в задачах промышленности не настолько распространено, как в других сферах и отраслях экономики вроде банкинга, ритейла, телекома. При этом современные промышленные объекты часто генерируют и собирают большое количество данных, а методы машинного обучения обеспечивают эффективное использование этих данных для решения различных устоявшихся типовых задач: выявления неисправностей и отказов, прогноз качества продукции, определения остаточного срока службы оборудования и многих других.


Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh
Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города — будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию. Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток. В этой статье мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т. п.


Обработка естественного языка (NLP). Личный опыт — мой первый запуск BERT
BERT — Bidirectional Encoder Representations from Transformers. Здесь не будет рассказываться о том, что такое BERT, как это работает и для чего применяется — в сети об этом достаточно информации. Это статья про личный опыт — как конкретно у меня получилось запустить BERT с чистого Colab по конкретным описаниям.


Как я делаю OCR
Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств. Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание. Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.Для решения проблемы я написал собственную программу для разметки данных. Работа в программе должна быть проста предельно проста и эффективна, увеличение и уменьшение изображения, перетаскивание, создание и удаление объектов, разметка происходит только с помощью мышки.


Как решать реальные задачи при помощи ChatGPT
На связи Андрей Нестеров, я занимаюсь компьютерным зрением в применении к мобильным приложениям в компании Friflex. Мы создаем продукты по оцифровке спорта, которые позволяют распознавать спортивные события и анализировать их.
В этой статье я приведу простейший пример использования ChatGPT в машинном обучении, предложу несколько способов, которые помогут обращаться к ChatGPT для решения реальных задач, а также подчеркну моменты, в которых она совершенно неприменима.


Разработка кросплатформенного приложения на Qt с использованием нейросетей, обученных на tensorflow
Раз уж Вы заинтересовались данной статьёй, то ожидается, что Вы умеете программировать на с++ с использованием библиотеки Qt и разрабатывать нейросети на Python c использованием библиотеки tensorflow. Соответственно остаётся только понять как использовать обученные Вами нейросетевые модели в Qt проектах.


10 первых ошибок в карьере ML-инженера
Всем привет, Меня зовут Богдан Печёнкин, Я автор Симулятора ML. Сегодня Я расскажу Вам о 10 ошибках, которые могут поджидать Вас в первые годы вашей карьеры в машинном обучении. Почти каждую из этих ошибок допускал Я сам и надеюсь, что Ваша осведомлённость о них после прочтения этого поста поможет избежать хотя бы часть из них.


Coming soon....

Меня зовут Андрей Аврамчук aka @Mimizavr, я старший продюсер спецпроектов в Хабре, принёс не ответ на главный вопрос, а пока только новый сезон на Хабре — «Машинное обучение», который мы проводим совместно с ВТБ с 1 по 31 марта. Будем искать вместе, и да поможет нам магия ML.

Какой станет наша жизнь ещё через 10 лет развития машинного обучения? Как изменятся повседневные сервисы? Чего смогут добиться инженеры? Мы попросили нескольких хабраавторов рассказать про обычный день в 2033 году. Из их ответов мы собрали историю, которая станет возможной благодаря развитию технологий ML.

Рабочие Земли, мы принесли вам историю из одного дня в 2033 году…

Вадим Шевяков

aka @Sirion

…Сегодня проснулся от характерного «ук-ук-ук-ук». Вскочил с кровати как ошпаренный. Какая из наших двух кошек блюёт? Посмотрел на экран смартфона, тихо и с облегчением матюкнулся.

Умный будильник знал, что накануне я засиделся допоздна. Чтобы разбудить человека, спавшего четыре часа, нужны экстренные меры. А для котовладельца со стажем не может быть ничего экстреннее «ук-ук-ук-ук».

Очень умный будильник, так и придушил бы в благодарных объятиях…

Николай Маслухин

aka@Maslukhin

…А дальше был такой диалог с моей ИИ-помощницей Йенифер:

— Доброе утро, Йенифер, как у нас дела?

— Доброе утро. Сегодня дождь, поэтому я не стала вас будить на пробежку. Тем более что последние 324 раза вы на неё не ходили.

— Спасибо.

— Я бы и сейчас не стала вас будить, но в календаре две встречи в офисе. Я пыталась их перенести, но ИИ на той стороне говорит, что одна из встреч — передача вам премиального золота и вам очень-очень надо приехать.

— Убедила, едем…

Александр Казанцев

aka@akdengi

…До выходных — целых два дня. В обществе уже поднимается вопрос, что мы настолько обучили ИИ, что работать не надо. Но некоторые выступают за возврат 3-дневной недели и 6-часового рабочего дня.

Одна из моих работ — в университете. Я веду предмет «Этика в андроидных системах», и сегодня мы учились настраивать блоки в направлениях, которые для андроида (и для человека, взаимодействующего с ним) не будут разрушительными. 

Помните, раньше я писал тексты и рисовал? А теперь пишу запросы, нахожу ошибки и исправляю этически некорректные вещи в них. Хотя проблему с общественными нормами при обучении ИИ подняли ещё 10–15 лет назад, до сих пор не получается строго задать ограничения. А профессия дизайнера и автора умерла в масс-маркете, став доступной миллионам. Некоторые авторы теперь не выкладывают произведения в Сеть, чтобы их не захватил и не переварил машинный разум…

Вадим Шевяков

aka @Sirion

…Потом я пришёл в офис, уселся в любимое кресло, РазраБОТчик уже сформировал пул-реквест, а ТестИИровщик уже дал предварительный апрув. Я пробежался глазами по коду. В целом почти всё написано корректно. Вот этот кастомный контрол всё же придётся переписать руками — РазраБОТчик не до конца понял требования заказчика. Пара мест реализована недостаточно гибко — я знаю, что в будущем там придётся нарастить новый функционал. Нажал в IDE кнопку «РефакторИИнг», дал подсказки, в какую сторону копать.

Пора домой. Прикинув время на сборы, запустил приложение MLshrootka и нажал кнопку «10 минут». Когда вышел из офиса, умная маршрутка как раз выезжала из-за угла. Такси каждый день — это всё-таки неэкономично. MLshrootka — другое дело. Гибко планируя маршрут в реальном времени, она доставляет пассажиров пусть и медленнее такси, зато в разы дешевле. Да и пробок в городе с каждым годом становится чуть меньше…

Олег Плотников

aka @Interfer

…Подошёл к подъезду, умный домофон приятным женским голосом сообщил, что горячей воды не будет ещё пять дней, а завтра запланированы работы в лифтовой шахте. То есть, резюмирует железяка, вы сожжёте минимум сто калорий, пока подниметесь на девятый этаж…

Сергей Парамонов

aka @varagian

…Система поняла, что я не успею приготовить ужин и заказала доставку. После я собирался на тренировку, но она сказала, что мне лучше посмотреть фильм — сон был не слишком качественный и организм не восстановился. Уже подобрала кино под интересы и дату…

Олег Плотников

aka @Interfer

…Ей попросту надо выбрать красивую антиутопию, желательно со Смешариками. Она отлично знает мои предпочтения, но дочка на том же аккаунте постоянно сбивает её алгоритмы. Алиса подозревает, что за учётной записью стоят два человека, однако до конца не уверена, кто всё-таки смотрел Шрека на прошлой неделе (спойлер: я)...

Вадим Шевяков

aka @Sirion

…Как же неохота идти спать. Но ещё меньше хочется просыпаться от «ук-ук-ук-ук».


А расскажите теперь вы о том, как машинное обучение меняет это будущее уже сегодня

Что всё это значит и зачем нужно

Технотекстам на узкие темы труднее набирать просмотры и рейтинг, чем статьям про выгорание, деньги и собеседования. Но Хабр придумал способ восстановить справедливость и дать техноавторам ту славу, которую они заслуживают. С лета 2022 года мы проводим сезоны Хабра — конкурсы узкопрофильных статей. Один сезон — одна дисциплина. Продолжительность — полтора месяца. Любой хабраавтор (авторы из корпблогов — тоже) может прислать свой текст и участвовать в гонке за призы.

В результате автор самой рейтинговой статьи забирает главный приз (в этом сезоне — MacBook Air), победитель сезона — грант 30 К на то, чтобы написать ещё текст. Все участники получают бесплатное продвижение сезонных статей в соцсетях.

Требования к статьям

  • Мы ждём статьи, основанные на личном опыте и собственной экспертизе: опыт разработки и использования инструментов ML, инструкции по решению задач и проблем, собственное профессиональное мнение и взгляд на развитие этих технологий.

  • Статьи должны быть полезны другим пользователям и читателям: помогать в работе, разбивать предрассудки, решать профессиональные задачи.

  • Только технохардкор. Нам интересны подробности, нюансы, детали, самые мелкие особенности, — это самый смак.

  • В центре внимания статей — ML. Применение в реальных задачах, настройка инфраструктуры, подготовка данных, новые подходы к обучению.

  • Без лишней рекламы или антирекламы. Можно упоминать бренды там, где это уместно, но посвятить статью пиару своего продукта или компании или знатно набросить на конкурентов не получится: все заявки вычитывают люди, а не ChatGPT, так что всё тайное станет явным.

Правила сезона

  • Сезон ML пройдёт с 1 по 31 марта. 

  • Побеждает статья с наивысшим рейтингом: голосование идёт на протяжении всего сезона, а результаты объявим сразу по завершении.

  • Один автор может прислать несколько заявок. Больше статей — выше шанс победить, а то и взять всё — от золота до бронзы. Кроме новых текстов принимаем и статьи, опубликованные после 14 февраля. Заявки принимаем до 23:59:59 31 марта.

  • Участвовать могут даже авторы из «Песочницы» — тут ограничений нет. 

Призы и слава

  • Замолвим за вас словечко перед Skynet и Матрицей — выдадим всем авторам плашку «Участник сезона ML», а победителю достанется значок «Победитель сезона ML» и дополнительный инвайт на Хабр. Машины вас не забудут.

  • Автору самой рейтинговой статьи достанется Apple MacBook Air 13.

  • Грант на 30 000 рублей для подготовки ещё одной классной статьи (если на новую статью нет времени, грант можно передать другому участнику).

  • Участие в конференции ВТБ по машинному обучению, анализу данных и технологиям ИИ Data Fusion.

Как подать заявку

  1. Написать текст в хаб Машинное обучение. Если сомневаетесь, подойдёт ли тема; думаете, как лучше подать, что будет интересно и полезно аудитории; сомневаетесь, что в вашей работе есть интересное и полезное для аудитории — можно спросить у меня в личке — @Mimizavr. Я выступлю в роли робота Марвина :)

  1. При публикации добавить к статье тег «cезон machine learning». Можно прикрепить этот тег и к старой статье — но только если она опубликована после 14 февраля 2023 г.

  1. Если статья подойдёт под критерии сезона, у неё под заголовком появится специальная плашка. А ещё статья попадёт в список участников (следующий пункт в этом анонсе). 

Вуаля! Вы на борту «Золотого Сердца» :)

Статьи-участники

Как воспитать GPT-3 модель в домашних условиях
Мы решили проверить технологию, на которой основан ChatGPT, посмотреть актуальное состояние open-source GPT-3-like моделей и ответить на вопрос — можно ли обучить GPT-3-like модель в домашних условиях? Для эксперимента выбрали GPT-J и не самый мощный ПК с видеокартой Nvidia GTX 1080TI с 11 GB VRAM. Оказалось, что этого достаточно не только, чтобы загрузить модель, но и дообучить ее (fine-tune). Рассказываем — как мы это сделали.


Обучение VAE и нижняя вариационная граница
Объяснение принципа обучения вариационного автокодировщика для генерации картинок. Как мне показалось, прочим статьям на эту тему не хватает необходимых для понимания уточнений. Кроме того, часто некоторые математически важные аспекты опускаются как очевидные, чего я пытался избежать.


Как мы нейросеть в браузер тащили
Задача пришла ко мне от моих институтских друзей из ИВМ РАН. Есть некий фронтенд, на который доктор загружает КТ снимок. Доктору предлагается при помощи веб интерфейса выделить сектор с сердцем, который будет передан на сервер, где алгоритмически отсегментируется граф аорты для последующего анализа. Меня попросили сделать нейросеть для выделения 3d сектора с сердцем, а затрачиваемое время не должно превышать 2-3 секунд. Гонять весь КТ снимок на сервер только за координатами накладно, т.к. КТ снимок обычно состоит из 600-800 кадров размера 512 * 512 пикселей, поэтому мое предложение о браузерном варианте пришлось кстати.


AIGod — распознавание объектов
В настоящее время искусственный интеллект все больше внедряется в повседневную жизнь, тем самым облегчая и ускоряя некоторые процессы. Распознавание объектов есть одним из ключевых моментов в ИИ, а именно это необходимо для того, чтобы программа понимала что перед ней находится и что с этим дальше делать. Это, скажем требование, уже используется довольно таки часто во многих средах с участием ИИ, например: ведение автотранспорта без участия человека, в поиске определенных людей или же вещей, и многое другое где это применяется и еще может применяться. Чтобы выполнить такую задачу, уже достаточно имеется программ которые могут это выполнять и постоянно этот список пополняется. Исключением не стало и данное ПО под названием AIGod.


Neural Network Optimization: океан в капле
Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов —  оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем. Более крупные модели занимают больше места для хранения, что затрудняет их распространение. Более крупные модели требуют больше времени для работы и могут потребовать более дорогого оборудования. Это особенно важно, если вы создаете модель для приложения, работающего в реальном времени. Оптимизация моделей направлена на уменьшение размера моделей при минимизации потерь в точности и производительности.


Progressive_plots или ускоряем построение графиков
Здравствуйте, меня зовут Николай Стрекопытов и большую часть карьеры я работал на стыке R&D и Deep Learning и в задачах возникающих в этих нишах часто невозможно написать какие-то автотесты и не всегда понятно где вообще может быть проблема. Я подумал, что можно вычислять значения функции в узлах не в порядке "перебираем каждую строчку столбца, а затем переключаемся на следующий столбец", а в каком-то более хитром порядке. В этой статье я хочу описать как я разработал прототип библиотеки, которая решает эту задачу и в комментариях с удовольствием вычитаю дельные замечания.


Первая бесплатная модель перевода с русского на китайский язык и обратно
Представляю вашему вниманию, первую бесплатную offline модель по переводу с русского языка на китайский и обратно. Ранее, я писал, как можно достаточно легко обучить свою модель по машинному переводу на примере перевода с английского на русский. В этот раз я решил, реализовать, модель перевода с китайского языка, так как давно хотел и о чем заявлял в комментариях к предыдущей своей статье.


Как мы улучшаем выделение интентов в наших продуктах
Привет, Хабр! На связи Мурат Апишев, руководитель направления NLP R&D в Just AI. Одним из ключевых направлений компании является разработка инструментов для создания голосовых и чат-ботов. Задача создания классификатора интентов в таких проектах является краеугольным камнем, и в этой статье я бы хотел поделиться некоторыми апдейтами наших продуктов в этом направлении. Речь пойдет о внедрении моделей классификации и парафраза на основе трансформеров. Приятного чтения!


Подробно рассматриваем обратное распространение ошибки для простой нейронной сети. Численный пример
В данной статье мы рассмотрим прямое распространение сигнала и обратное распространение ошибки в полносвязной нейронной сети. В результате получим весь набор формул, необходимых для её программной реализации. В завершении статьи приведён численный пример. Надеемся, что статья будет интересной и полезной для всех, кто приступает к изучению глубинного обучения и нейронных сетей!


True RND или что делать с обученной моделью (опыт чайника)
Когда то давно на просторах интернета читал статью о генерации по настоящему случайного пароля. Суть сводилась к тому что для реализации рандома нужно натурально бросать игральные кости. Отличная идея, для небольшого pet проекта и для того чтобы проникнуть в основы ML. Попробуем научить компьютер бросать настоящие кости, находить их на изображении с веб камеры и понимать что на них выпало. И так, из подручных материалов делаем стенд для бросания костей.


Как я делаю OCR — Часть 2
В предыдущей статье я рассказывал как собираю данные для детектирования текста на изображениях. Теперь используя собранный набор данных попробуем натренировать одну из самых популярных сетей для сегментации и детектирования объектов YOLOv5. Для этого будем использовать бесплатный Google Colab.


Прости нас, Джон Коннор, или Как мы научили нейросеть точечно распознавать звуки выстрелов
Привет, Хабр! Меня зовут Антон Рябых, работаю в Doubletapp и в этой статье расскажу про технические детали применения машинного обучения в проекте HitFactor. Что такое hit factor? На соревнованиях по практической стрельбе спортсмены быстро перемещаются, меняют магазин и стреляют по разным, в том числе и подвижным мишеням. Hit factor — это результат соревнования, то есть количество набранных очков, деленное на время прохождения.  Нам рассказали об этом чемпионы мира по практической стрельбе Алена Карелина и Роман Халитов, которым нужно было мобильное приложение для помощи в тренировках. Двигаться экономнее, стрелять быстрее — анализ записи тренировки поможет понять, как сократить время на прохождение упражнения и повысить эффективность.


Учим нейросеть принимать решения на основе уже известного опыта (на примере Шахмат и загруженного датасета)
Учим нейросеть играть в Шахматы, загрузив в нее датасеты уже сыгранных партий с известным результатом.То есть никакого минимакса, деревьев и расчетов на несколько ходов вперед. Идея в том, что если в нейросеть загрузить много партий, уже сыгранныx другими игроками, то нейросеть будет знать, как поступали другие игроки в соответствующих случаях и к какому результату это приводило. Нейросеть обобщит имеющийся опыт и будет делать ход на основе уже известного опыта и выявленных закономерностей, причем делать ход «мгновенно».


Как мы подружили ML и биореакторы
Мы Data Science команда биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы применяем машинное обучение при производстве лекарственных средств и с какими задачами сталкиваемся для оптимизации технологического процесса культивирования белка.


HalvingSearch: ускорение поиска по сетке (grid search). Библиотека sklearn
Подбор гиперпараметров модели – одна из самых распространенных задач в data science. Если заранее неизвестно, какими могут быть оптимальные значения, приходится искать по сетке значений. Если у нас есть m гиперпараметров и для каждого задано n возможных значений, то число вариантов равно mn и для каждого нужно обучить модель и определить ее точность. Если мы используем перекрестную проверку (cross-validation), то это число надо умножить на число частей, на которые мы разбиваем набор данных. Есть ряд алгоритмов оптимизации поиска, например байесовский – «осмысленный» поиск, при котором рассматриваются не все возможные сочетания гиперпараметров. Относительно недавно sklearn был реализован еще один метод – halving search.


Снова о распознавании рукописного текста, на этот раз с помощью CRNN
Нейронные сети в частности и машинное обучение в целом демонстрируют потрясающие результаты в тех областях науки и техники, в которых от них никто не ожидал этого еще лет 10 назад. Уже на текущий момент модели машинного обучения превзошли человека в задачах классификации, распознавания, предсказания и даже в некоторых играх человек не способен конкурировать c ними…
Задача классификации изображений на датасете ImageNet – ярчайший пример того, что нейросети превзошли человека (внимание: еще в 2016 году).


ChatGPT: новый инструмент в борьбе с багами. Как можно использовать AI для повышения качества тестирования
Всем привет! Я QA Engineer и недавно открыл для себя ChatGPT и хочу открыть этот мир другим тестировщикам. Эта статья не руководство к применению и каких-то суперлайфхаков здесь не будет. Цель этой статьи в том, чтобы показать огромные возможности нейросетей в помощи нам, тестировщикам, в работе. Надеюсь что кто-то, прочитав это, хоть немного сможет облегчить себе составление тест-кейсов, написание документации или написание автотестов.


Отгадай слово: как мы создали игру с элементами машинного обучения и вышли в ноль за 2 месяца
Как думает искусственный интеллект? Попробовать разобраться в его логике можно в игре от менторов AI Talent Hub, онлайн-магистратуры Napoleon IT и ИТМО, и студентов ИТМО «Отгадай слово». За два месяца в нее сыграли уже более 107 тысяч уникальных пользователей, а количество подписчиков одноименного телеграм-канала увеличилось до 5 000.Что делает игру такой популярной, как проект окупился без затрат на продвижение и рекламы на сайте, а также почему при работе с ИИ не избежать ошибок? Рассказываем в статье.


NORUAS — домашний Саурон, но это не точно…
В этой статье я хочу поделиться опытом создания еще одного "умного" устройства, умеющего при помощи компьютерного зрения идентифицировать людей по принципу свой-чужой и, исходя из этого управлять доступом в помещение. Сразу отмечу, что представленное устройства является проектной работой моего сына, с которой он участвовал в городской научно-практической конференции. Так что формально я не являюсь автором данного проекта, но будучи глубоко вовлеченный в разработку в качестве технического консультанта, с согласия автора идеи я решился на написание данного эпоса.


Все, что вы хотели знать о задаче определения остаточного ресурса оборудования
Применение искусственного интеллекта и машинного обучения в задачах промышленности не настолько распространено, как в других сферах и отраслях экономики вроде банкинга, ритейла, телекома. При этом современные промышленные объекты часто генерируют и собирают большое количество данных, а методы машинного обучения обеспечивают эффективное использование этих данных для решения различных устоявшихся типовых задач: выявления неисправностей и отказов, прогноз качества продукции, определения остаточного срока службы оборудования и многих других.


Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh
Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города — будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию. Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток. В этой статье мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т. п.


Обработка естественного языка (NLP). Личный опыт — мой первый запуск BERT
BERT — Bidirectional Encoder Representations from Transformers. Здесь не будет рассказываться о том, что такое BERT, как это работает и для чего применяется — в сети об этом достаточно информации. Это статья про личный опыт — как конкретно у меня получилось запустить BERT с чистого Colab по конкретным описаниям.


Как я делаю OCR
Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств. Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание. Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.Для решения проблемы я написал собственную программу для разметки данных. Работа в программе должна быть проста предельно проста и эффективна, увеличение и уменьшение изображения, перетаскивание, создание и удаление объектов, разметка происходит только с помощью мышки.


Как решать реальные задачи при помощи ChatGPT
На связи Андрей Нестеров, я занимаюсь компьютерным зрением в применении к мобильным приложениям в компании Friflex. Мы создаем продукты по оцифровке спорта, которые позволяют распознавать спортивные события и анализировать их.
В этой статье я приведу простейший пример использования ChatGPT в машинном обучении, предложу несколько способов, которые помогут обращаться к ChatGPT для решения реальных задач, а также подчеркну моменты, в которых она совершенно неприменима.


Разработка кросплатформенного приложения на Qt с использованием нейросетей, обученных на tensorflow
Раз уж Вы заинтересовались данной статьёй, то ожидается, что Вы умеете программировать на с++ с использованием библиотеки Qt и разрабатывать нейросети на Python c использованием библиотеки tensorflow. Соответственно остаётся только понять как использовать обученные Вами нейросетевые модели в Qt проектах.


10 первых ошибок в карьере ML-инженера
Всем привет, Меня зовут Богдан Печёнкин, Я автор Симулятора ML. Сегодня Я расскажу Вам о 10 ошибках, которые могут поджидать Вас в первые годы вашей карьеры в машинном обучении. Почти каждую из этих ошибок допускал Я сам и надеюсь, что Ваша осведомлённость о них после прочтения этого поста поможет избежать хотя бы часть из них.


Coming soon....

Комментарии (11)


  1. sshmakov
    00.00.0000 00:00

    Так что ответил ИИ на главный вопрос? Наверняка кто-то попробовал


    1. Mimizavr
      00.00.0000 00:00
      +1

      Ответы от Midjourney и ChatGPT:


      1. sshmakov
        00.00.0000 00:00

        Вот еще нашлось, но это больше похоже на сказочку

        “Boy, the answer to life, the Universe and Everything is ‘42’ and the question is: ?. Now you know. So don’t ask silly questions."

        The boy looks up to his father as the most intelligent man to ever live. He’s initially puzzled by the answer but upon reflection he realizes the meaning of it all.

        “You’re too young to understand, kid.”

        The child looked at him as if he was stupid and asked a follow up question:

        “What is the answer to life, the Universe and everything? What did you mean when you said now I know but I’m too young to understand? How can I understand the answer but not the question?”

        The father put on a condescending smirk as he thought to himself, “I came up with the theory of everything. How dare a child doubt it?”

        https://muellerberndt.medium.com/i-asked-gpt-3-for-the-question-to-42-i-didnt-like-its-answer-and-neither-will-you-33f425a4d60f

        Перевод https://vc.ru/future/227175-ya-sprosil-gpt-3-v-chem-smysl-zhizni-vselennoy-i-vsego-takogo-otvet-mne-ne-ponravilsya-vam-on-tozhe-ne-ponravitsya


      1. v1000
        00.00.0000 00:00

        не удивлюсь, если продолжение будет в виде:

        - а я думаю, что 42.

        - да, наверное, Вы правы, 42.


        1. Mimizavr
          00.00.0000 00:00

          не совсем


  1. gajde
    00.00.0000 00:00

    уверена, что ответ на главный вопрос был бы найден быстрее, если бы науки не соперничали друг с другом в первенстве, а нашли бы в себе силы для совместного поиска


    1. Megavolv
      00.00.0000 00:00

      Интересно, как это могло бы выглядеть на практике.


    1. AllexIn
      00.00.0000 00:00

      Ответ был бы найден быстрее, если бы его хотя бы сформулировали.


  1. Tulkas_88
    00.00.0000 00:00

    т.е. статьи сгенерированные нейросетью ChatGPT не будут приниматься к участию!?) ????


    1. holodoz
      00.00.0000 00:00

      В смысле не будут, то есть тридцать статей и десять минут моего времени коту под хвост?


      1. Mimizavr
        00.00.0000 00:00

        Вы в телевизоре))