• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
09:01

Я — идеальный программист +67

07:12

Забавные названия математических теорем +33

08:00

Кастомные флейворы, интеграция с сервисом логов в DBaaS и другие апдейты августа в продуктах Selectel +24

07:04

Бобина, VHS и стример. История одной из опорных технологий XX века. Часть 1 +24

15:01

Модернизация древнего драйвера Linux с помощью Claude Code +21

11:00

Open Source и ЖКХ +21

11:37

Как мы проектируем личный кабинет ресторана: процессы, решения и ошибки +19

13:01

Самодельные светильники из цветного стекла. Часть 1. Светильник-ящик +18

08:05

«Сезам». Оживляем домофон на одного абонента +15

08:36

Ещё одно тестирование Angie, HAProxy, Envoy, Caddy и Traefik от Devhands +14

17:14

Наше расследование: ищем отечественные микросхемы в «отечественных» счетчиках электроэнергии. Часть 8 +12

08:37

Конструктор лендингов: как мы научились делать сайты без разработчиков +12

00:22

Напердолил целую игру +12

10:43

Осваиваем LLM: подробное знакомство с книгой Себастьяна Рашки «Строим LLM с нуля» +11

08:41

Города будущего: мечты, которые уже становятся реальностью +11

12:34

Реальный проект и сертификат для портфолио — что, помимо знаний, дадут курсы по ручному тестированию и разработке на Go +10

14:13

Как мы ускорили заливку данных в YDB в 40 раз +9

12:00

Пневмопочта: как в XIX веке придумали отправлять сообщения в капсулах и создали прототип IT-инфраструктуры +9

13:03

Секреты LLM по API: динамическая анонимизация данных для российского бизнеса +8

13:07

3 книги для развития аналитического мышления и вдохновения +7

08:00

Как и почему менялись зарядные устройства +64

12:00

Как мы обманули Mozilla и почти взломали коллег +47

09:01

Сборка тревел-гитары из запчастей с Aliexpress +45

15:05

Экспресс-тест зарядки Apple 18W – обычный ширпотреб +41

13:01

Реальна ли 3D-печать металлом на дому? +39

08:45

Антенны для вашего приёмника SDR +38

14:27

Электроника в вопросах и ответах 3 +33

09:22

Алгоритмы в повседневной жизни +31

13:37

Визуализация управления памятью в Python: что творится внутри? +24

09:12

Китайский многофазный DC/DC источник — двойник с сюрпризом +24

10:57

Как мы изобрели свой велосипед с vuls и запустили сканирование уязвимого ПО на базе OpenSource решения +23

07:00

Миграция без боли и даунтайма: как мы перевозили данные с MongoDB на PostgreSQL +19

10:54

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO +17

22:14

Почему IT в Японии — это «голубой океан»? +16

12:51

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ +16

19:05

Как я заменил систему диалогов старой игры на живую LLM +15

11:46

Что происходит с российской электроникой прямо сейчас и кто в этом виноват? +15

07:30

Как мы освободили 20 ГБ в PostgreSQL без удаления данных +15

07:00

Как это сделано: пешеходный мост с пиксельной подсветкой +15

08:05

Нейро-дайджест: ключевые события мира AI за 2 неделю сентября 2025 +14

13:20

День, когда высох Ниагарский водопад +164

08:00

История Rust: от стартапа до продакшена +74

07:00

Как найти течь в крыше раньше, чем вы поставите ведра? +70

14:28

DOOMQL: DOOM-подобный многопользовательский шутер на чистом SQL +69

08:11

Post-PHP эра: куда движется веб-разработка? +54

13:01

161-ФЗ и апелляция на Bybit: как я победил треугола +51

08:13

Устройство на работу на позицию senior developer в 2025 году в Москве. Мой опыт +34

18:08

Урок, который SpaceX извлекла из последнего полёта Starship: «Нам нужно герметизировать плитки» +33

09:01

ЦОД как сервис, сисадмин как разработчик: как менялись модели +31

07:06

Whitechapel MG1: редкий компьютер с графическим интерфейсом из «Автостопом по Галактике» +29

07:00

Всё переписать: запускаем Cilium dualstack overlay поверх IPv6 underlay +27

09:02

Я рад, что застал рождение Рунета +26

08:38

Цифровизация производства: как российские IT-решения экономят миллиарды +26

08:05

Делаем брелок с LED матрицей ярче +24

11:48

Юридический лайфхак: ищем настоящие традиционные товары с помощью одного интересного госреестра +22

22:12

Создание интерактивного макета. Задача упаковки кругов в круг. Метод отжига +19

07:52

«Я играю, меня не беспокоить!». Как я стал зажигать световое табло On Air при подключении к TeamSpeak +19

06:31

Рецензия на книгу «Разработка мультитенантных SaaS-архитектур: принципы, модели, практика» +19

09:27

Нововведения Java 25 +16

10:40

Все роли в кибербезопасности на одной схеме: инструкция по планированию карьеры +14

ОБСУЖДАЕМОЕ

  • Как и почему менялись зарядные устройства +64

    • 92   9900

    161-ФЗ и апелляция на Bybit: как я победил треугола +51

    • 91   18000

    Устройство на работу на позицию senior developer в 2025 году в Москве. Мой опыт +34

    • 81   20000

    История Rust: от стартапа до продакшена +74

    • 78   11000

    Linux умер. Да здравствует Linux +6

    • 62   13000

    Post-PHP эра: куда движется веб-разработка? +54

    • 59   15000

    Кладезь полезных программ для Windows +7

    • 58   14000

    День, когда высох Ниагарский водопад +164

    • 58   66000

    Как мир вернулся в «классический веб» — взлет и падение эпохи мобильных приложений +7

    • 49   13000

    Я — идеальный программист +67

    • 43   8900

    Экспресс-тест зарядки Apple 18W – обычный ширпотреб +41

    • 43   4800

    UUIDv7 в PostgreSQL 18 +13

    • 40   5200

    Как найти течь в крыше раньше, чем вы поставите ведра? +70

    • 40   43000

    Почему IT в Японии — это «голубой океан»? +16

    • 38   7100

    Реальна ли 3D-печать металлом на дому? +39

    • 37   12000
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.