• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
07:10

Постковидный эндотелиит: почему вы устаете не только от работы +21

05:13

NetFix: как я сделал GUI-обёртку для Zapret и TgWsProxy, которой самому приятно пользоваться +16

08:00

Всё, что вы настроили в Linux, можно было не настраивать +15

08:19

Как я прошёл путь от «сам быстрее напишу» до своего фреймворка для агентной разработки +8

06:19

Ручной тепловизор из термального модуля fpv. С записью фото на смартфон +7

08:28

Как я потратил полгода на «покажи чертёж нормально» +5

08:05

Эти программы знали все. Но сейчас не каждый разберётся, как ими пользоваться. Софт из нулевых, про который мы забыли +5

06:30

Как Япония попыталась в 1980-х создать компьютер пятого поколения и напугала Америку +5

09:18

10 настроек Claude Code для разработчика-архитектора +4

09:01

Почему не взлетели дирижабли? Часть 24: «блимпы» США двух мировых и холодной войн, бой с подлодкой и пропавший экипаж +4

08:00

Western Digital создала жесткий диск с защитой от квантовых атак: разбираем, как он работает +4

06:19

Топ-10 вопросов на собеседовании по FastAPI +4

01:13

Как тестировать HTTP-запросы к внешним сервисам в Python-приложениях: requests-mock, pytest-httpx и FastAPI +3

08:51

Anything LLM для каждого [бизнеса] +2

09:20

Город, которого нет… на карте ЦОД‑индустрии — и это странно +1

07:01

Hermes Agent Desktop: личный опыт и пошаговая настройка под реальные задачи +1

06:00

Как я писал скрипт: от идеи до рабочего инструмента +1

05:54

Конечный автомат (FSM) — ловушка для программиста +1

05:28

От точек к процессам: почему квантовая механика не очень любит точечные частицы +1

09:01

Нейтродин. Забытая радиосхемотехника 1920-х +67

07:30

Меня бесит использование ИИ в разработке. И я наконец понял почему +51

07:01

Как я сделал сканер под iOS и Android для диагностики Wi-Fi-сети +51

00:30

Что происходит, когда LLM остается наедине с собой (неожиданно, но она сходит с ума) +44

15:20

IPv10, или замедление, ставшее ускорением +33

13:01

Как я установил в свой игровой ПК серверный GPU за £200 +32

10:38

В умелых руках и sed — балалайка или пишем «Морской бой» на регулярках +31

07:06

247 Java-собесов в банках РФ: 12 вопросов в 80% случаев — и почему №7 валит 9 из 10 +29

08:05

Самый суровый кодовый замок СССР +28

11:15

Нельзя попросить протоны сталкиваться помедленнее: как устроена фильтрация данных CERN +20

11:13

Из CTF в багбаунти: как я заработал 7 миллионов рублей за полтора месяца и причем тут ИИ +18

08:02

Я спрятал в этой статье шифр. Точно так же, как его прячет ваш принтер +18

14:05

Настоящий андеграунд: современные BBS +17

14:13

Представляем AdaEngine 0.1.0 — игровой движок на Swift +15

14:38

Здравствуйте, я мистер Мисикс. Практические заметки о психологии вашего искина +14

08:21

Что kubectl debug вам не показывает: незаметный пробел в данных +14

21:07

Vulkan рендер для S.T.A.L.K.E.R OGSR +13

12:34

Простая сложная VictoriaMetrics +13

08:25

Загадка ядра Linux: почему на 36 vCPU Cilium падает, а на 32 — нет +13

07:40

Про конструкторы сайтов с ИИ – что реально уже работает, а что только для пиара +13

12:52

Оживляем дешевый Smart TV: обход вырезанного ADB, деблоат Яндекс.ТВ и сборка легкого медиацентра +155

07:05

Как перестать залипать, или скучный способ выбраться из дофаминовой ямы +85

19:46

Основы информатики для всех +63

13:02

Можно ли «перенести» окно в квартире на любую стену или даже размножить? +54

21:53

Человек, который занимался нейросетевой математикой в Красноярске — и которого цитируют до сих пор +53

08:00

Миф о «равных весах»: что на самом деле скрывается внутри малых моделей +38

09:01

Насколько обоснован хайп вокруг электрогитар марки JET, и при чём здесь ИИ? +37

06:56

Подключение современной USB-мыши к ретро компьютеру с шиной ISA +36

07:05

Про шестерни-2: необычные реализации и альтернативные подходы +35

18:38

Один баг в проде, после которого я всерьёз воспринимаю неопределённое поведение +31

15:54

Голубая мечта околоайтишника — разбогатеть на ChatGPT-обертке +25

09:35

CO2 станция на ESP32-C3 + SCD41 + GC9A01 +25

15:14

Обзор SPI Flash памяти MX25L6433F +23

18:58

Как игровой GUI пишут заново (Ч.2) +22

14:13

Как компьютер Spacelab считал без микропроцессора: реверс-инжиниринг платы из 1980-х +22

09:29

Может ли Service сломать ваш K8s кластер? +21

09:29

Может ли Service сломать ваш K8s кластер? +21

07:38

Разбираем новый релиз «Графини»: кеширование витрин, прогнозирование и импорт дашбордов из Grafana +21

07:05

Как шахматный подход помог разобраться с фотолентой Яндекс Диска +21

14:18

Как я стал начальником в нефтянке и при чем тут мой отец +20

ОБСУЖДАЕМОЕ

  • Что происходит, когда LLM остается наедине с собой (неожиданно, но она сходит с ума) +44

    • 68   22000

    Оживляем дешевый Smart TV: обход вырезанного ADB, деблоат Яндекс.ТВ и сборка легкого медиацентра +155

    • 68   27000

    Плати по миру: честный отзыв о виртуальной карте в 2026 году — как я плачу из России за Claude, подписки и путешествия -2

    • 65   18000

    Делал микро-продукт 1,5 года, потратил 100 000 ₽, им воспользовались 5 000 человек, но не заплатил никто +9

    • 62   11000

    Меня бесит использование ИИ в разработке. И я наконец понял почему +51

    • 57   12000

    Почему производительность труда в России ниже, чем в развитых странах +6

    • 56   12000

    Как перестать залипать, или скучный способ выбраться из дофаминовой ямы +85

    • 52   18000

    Подключение современной USB-мыши к ретро компьютеру с шиной ISA +36

    • 40   9200

    Почему Claude Code и Codex не ускоряют команду: у компании нет общей памяти +13

    • 34   15000

    Основы информатики для всех +63

    • 30   21000

    Из мёртвого ноута — в домашний NAS: спасаем 100 ГБ фоток за 0 ₽ +3

    • 29   9100

    Голубая мечта околоайтишника — разбогатеть на ChatGPT-обертке +25

    • 29   15000

    Умный дом без контроллера: как собрать систему на реле и диммерах +14

    • 27   8700

    Один баг в проде, после которого я всерьёз воспринимаю неопределённое поведение +31

    • 25   15000

    Простой способ создать умный датчик +5

    • 25   8600
  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.