Друзья, мы запустили соревнование среди AI/ML-разработчиков – RAIF Hackathon. Приглашаем вас принять участие! Мероприятие проводится в рамках делового бизнес-форума RAIF 2018 (The Russian Artificial Intelligence Forum). Год назад мы делали похожий хакатон, но в этот раз формат будет отличаться. Вас ждут 2 этапа: отборочный онлайн- и финальный офлайн-баттл на глазах у гостей RAIF. Три задачи – от Росреестра, «Утконоса» и Новолипецкого металлургического комбината (НЛМК) – и, соответственно, три номинации на выбор. Призовой фонд – больше 1 млн рублей. И да, как и в прошлом году, надо будет решить поставленные задачи с помощью технологий машинного обучения ;).
Участвовать можно в одиночку или командой до 3 человек. Вы сможете выбрать по своему усмотрению одну, две или даже все три представленные задачи. Во всех трех случаях вам будут доступны реальные данные наших партнеров (конечно же, обезличенные). То есть у вас будет прекрасная возможность заглянуть за кулисы их бизнеса, что, как нам кажется, куда интереснее абстрактных выдуманных задач, которые предлагают на большинстве хакатонов.
Одна задача – на абсолютный результат:
- Ускорить производство стального проката (НЛМК)
Участники этого потока смогут видеть свои результаты в лидерборде на сайте соревнования.
Две другие задачи – творческие:
- Проанализировать спрос на товары («Утконос»).
- Спрогнозировать кадастровую стоимость объектов недвижимости (Росреестр)
Здесь мы лишь предоставим данные от партнёров, а вы сами должны будете придумать, что с этими данными можно сделать.
Но обо всем по порядку.
Онлайн и офлайн
RAIF Hackathon пройдёт в два этапа: онлайн и офлайн. До 19 октября включительно проходит отборочный онлайн-тур по задаче от НЛМК. По задачам от «Утконоса» и Росреестра этот этап на 1 день меньше – до 18 октября. Пройдя регистрацию и заполнив профиль в личном кабинете, вы сможете скачать данные. По завершении работы необходимо будет выгрузить созданные математические модели там же, в личном кабинете.
11 октября – дата «сверки часов»: в этот день вы можете прислать промежуточные (либо уже окончательные) варианты решений и получить обратную связь от кураторов хакатона. Своевременные советы экспертов повысят ваши шансы на выход в финал. Особенно актуальна эта опция для тех, кто участвует в номинациях «Утконоса» и Росреестра, каждая из которых предполагает несколько вариантов решений.
20 октября состоится подведение итогов отборочного этапа, а 21 октября результаты придут участникам в рассылке и будут опубликованы на сайте RAIF Hackathon.
В каждой номинации 10 лучших команд, прошедших в финал, встретятся 23 октября в Москве в рамках бизнес-форума RAIF на завершающем соревновании. Финалистов ждут дополнительно предоставленные данные и 4 часа кодинга по доработке своего проекта. Все это на глазах у признанных экспертов в сфере AI/ML и топ-руководства крупных российских компаний. В завершение состоится подведение итогов и награждение победителей.
В номинации от НЛМК победители будут выявлены по абсолютному результату. В номинациях от «Утконоса» и Росреестра лучшие решения определит жюри по итогу защиты представленных работ. Призовой фонд разделят 3 команды – каждая получит по 350 тысяч рублей.
Задачи, они же номинации
AI для НЛМК
Задача заключается в прогнозировании времени прохождения стальной полосы по участку стана горячей прокатки стали.
Стан горячей прокатки НЛМК производит прокат шириной до 1850 мм и толщиной от 1,45 мм до 16 мм. Марочный сортамент – от низкоуглеродистых до высокопрочных, включая углеродистые марки, а также электротехническая сталь. В числе основных потребителей горячекатаного рулонного и листового проката – предприятия стройиндустрии, судостроения, автомобилестроения, изготовители труб, а также собственное производство холоднокатаного проката.
Горячекатаный прокат осуществляется следующим образом. Из методических печей на линию стана выгружаются нагретые слябы – стальные плиты, служащие заготовкой для прокатки. В процессе прокатки по линии стана полоса стали спрессовывается в клетях черновой и чистовой группы, становясь все более тонкой и длинной, и в конце сматывается в рулоны на специальных моталках. Чем тоньше и длиннее становится полоса, тем быстрее она должна двигаться по стану.
В качестве входных данных используются обезличенные данные полос (ширина, толщина и т.д.) и обезличенные данные о работе стана перед прокаткой следующей полосы (скорости рольгангов, мощности клетей и т.д. без привязки к схеме).? В названиях параметров будет указан их физический смысл.
Анджей Аршавский, директор по анализу данных НЛМК:
В формате хакатона мы хотим попробовать решить задачу прогнозирования времени проката стали на одном из наших ключевых агрегатов. Хакатон дает возможность взглянуть на привычный производственный процесс под разными углами, понаблюдать, как для его оптимизации применяются разные, порой неожиданные подходы. А для участников RAIF Hackathon это шанс проявить себя, попробовать решить еще одну практическую задачу и понять свой уровень в среде коллег.
AI для Росреестра
Творческое задание!
Определите параметры, влияющие на стоимость объектов недвижимости, и постройте математическую модель, оценивающую рыночную стоимость этих объектов.
Новые технологии, в частности машинное обучение, могут существенно повысить эффективность оценки объектов недвижимости. Выводы, полученные аналитическим путём, могут постепенно замещаться выводами, «сгенерированными» алгоритмами машинного обучения на основе анализа ситуации на рынке недвижимости и степени влияния различных факторов на стоимость объектов недвижимости.
В данном конкурсе участникам предлагается на основе предоставленной выгрузки и любых других данных из открытых источников построить прогнозную модель, которая будет определять рыночную стоимость объекта. При этом данные, которые будут основой для определения рыночной стоимости, и саму выборку для построения модели участники должны найти самостоятельно в открытых источниках. В качестве оцениваемого результата хакатона будет рассматриваться связка предлагаемой математической модели и презентации.
В презентации необходимо отразить:
- внешние данные, которые были использованы в построении модели
- методики оценки корректности модели и их результаты
- описание самой модели
- описание наиболее важных параметров и выводы, которые можно на этой основе сделать.
Параметры оценки творческого решения
- Практическая применимость
- Хорошо: проведена аналитическая работа. При построении модели учитывались различные внешние факторы, влияющие на стоимость объектов недвижимости. Модель может прогнозировать стоимость объектов недвижимости с учетом отсутствия информации по ряду внешних факторов.
- Плохо: выводы о том, что все факторы влияют одинаково, или модель работает только для малой части объектов
- Способ оценки точности решения
- Хорошо: нахождение корректной тестовой выборки, возможность демонстрации работы модели
- Плохо: посчитали кадастровую стоимость по известной формуле
- Использование внешних данных
- Хорошо: вы проанализировали и оценили влияние различных внешних факторов (близость к ключевым объектам инфраструктуры, транспортная доступность, состояние дома, наличие парков/лесопарков, водоёмов, отсутствие свалок и т.д.)
- Плохо: не добавляли никаких параметров или использовали их некорректно (допустили утечку целевой переменной)
- Новизна
- Хорошо: выводы и решение отличаются от общеизвестных и доступных
- Плохо: применили стандартную формулу для расчета
Тимофей Алексеев, заместитель начальника управления ИТ Росреестра:
Нам будет интересно оценить практическую пользу представленных решений и возможность их дальнейшего применения в работе службы. От участников мы ждем нестандартных решений и внимания к деталям.
AI для «Утконоса»
Творческое задание!
Проанализируйте спрос на товары интернет-гипермаркета, используя исторические данные о выкупаемости товаров со складов за последние несколько лет.
Решение поможет компании обеспечивать необходимое количество товаров на складах, учитывая изменяющийся спрос.
В рамках данной задачи интересны:
- Алгоритмы и решения, которые могли бы учитывать, как влияет изменение цен и наличия одних товаров на спрос на другие товары (Halo-эффект, «каннибализация»).
- Определение товаров, которые являются товарами-заменителями и сопутствующими товарами.
- Выявление закономерностей в поведении клиентов, прогнозирование заказов на товары с учетом данных закономерностей.
Владимир Алабин, менеджер по автоматизации прогнозирования, «Утконос»:
Мы хотим иметь более полное представление о спросе и влияющих на него факторах для того чтобы с одной стороны максимально удовлетворять требованиям клиентов, а с другой – оптимизировать работу склада.
Параметры оценки творческого решения
- Понимание предметной области
- Хорошо: решение основывается на понимании бизнес-потребностей.
- Плохо: по мнению участника, все параметры одинаково полезны, больше или меньше спрогнозировали – разницы нет.
- Экономическая эффективность
- Хорошо: вы рассчитали показатели, которые могут быть интересны бизнесу ритейла (например, прибыль от внедрения системы).
- Плохо: посчитали абстрактный AUC или точность. Какая польза магазину – непонятно.
- Использование внешних данных
- Хорошо: вы оценили влияние праздников, погоды и других внешних факторов
- Плохо: добавили параметры, притянутые за уши (вроде влияния погоды на Марсе).
- Новизна
- Хорошо: вы привнесли что-то своё и показали, чем это отличается от готовых решений.
- Плохо: открыли Stackoverflow, нашли примерно похожий вопрос и ответ к нему, сделали по аналогии.
>> Стать участником RAIF Hackathon <<
Внимание! Разыгрываем 10 билетов на техническую секцию
По завершении RAIF Hackathon состоится техническая секция, на которой можно будет послушать признанных экспертов Data Science – представителей известных российских и зарубежных компаний (в том числе стартапов). Среди них: Константин Воронцов, профессор кафедры интеллектуальных систем ФУПМ МФТИ; Дмитрий Бугайченко, инженер-программист «Одноклассники»; Эмели Драль, Chief Data Scientist Mechanica.AI; Николай Князев, руководитель команды Data Science «Инфосистемы Джет»; Алексей Драль CEO BigData Team, и другие.
Все финалисты хакатона смогут посетить техническую секцию бесплатно. Для тех, кто пока не уверен в своих силах или не планирует участвовать в хакатоне, но очень хочет посетить сие мероприятие, объявляем розыгрыш 10 билетов! До 9 октября включительно сделайте репост в Facebook и/или Вконтакте и пришлите ссылку здесь – в личном сообщении. Победители будут определены 10 октября генератором случайных чисел. Каждого оповестим через ЛС.
UPD: друзья, для оперативного взаимодействия с участниками RAIF Hackathon мы создали телеграм-чат t.me/RAIFHACK — вопросы по хакатону можно задавать там.
Комментарии (5)
evgeny_i
09.10.2018 13:39Будет здорово, если вы чуть понятнее опишете данные от Утконоса. В частности не понятно описание «словарь для коррекции «Сырье/Товар ID» между файлом заказов и данных о складах». Там есть два поля «Диапазон» и «Сырье». В какую сторону надо делать маппинг?
Учитывая сжатые сроки, хотелось бы потратить время на решение бизнес задачи, а не разгадывание ребуса с описанием данных.JetHabr Автор
09.10.2018 13:47Датасет устроен так 'sale_code','stock_code', т.е. первая колонка — это id из продаж, вторая — id из данных стока.
JetHabr Автор
09.10.2018 13:49Для оперативности взаимодействия мы создали телеграм-чат t.me/RAIFHACK — вопросы по хакатону можно задавать там.
fivehouse
OMG!
Как нам прикрутить хоть какой нибудь AI, или A-не-I, чтобы тот почти мусор, который мы выдаем за товары, да еще и при скуднейшем выборе и по тем ценам неудачники покупали активнее? Ведь мыжепочти монополисты в некоторой области. Но не помогает. И что же еще нам такого проанализировать да отанализировать?