• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
09:10

Русская Ардуино — опять приклеили шильдик на китайский девайс? +43

05:03

Гонка вооружений: смертельно опасный тритон и (не)ядовитая змея +27

09:01

ЭВМ и роботы на страницах советской научной фантастики. Часть 1: двадцатые и тридцатые годы +15

07:01

Отказаться от Postman, перейти на Bruno и жить счастливо +13

09:36

Как манул единорога в горы водил: запускаем PVS-Studio на российских процессорах Эльбрус +11

08:03

/e/OS 3.0: мобильная платформа для тех, кто ценит приватность +11

08:09

Одноклассовый энтерпрайз +8

09:37

Когда Станислав Лем come true +6

11:20

Жизнь после 30: поговорим о больных коленях +4

11:00

Великое возвращение в офисы… откладывается? +4

07:05

Краткая история JavaScript +4

14:05

Самая сложная «Змейка»: Как я отреверсил и хакнул кнопочный телефон, чтобы написать для него классическую игру +3

13:01

Про деревянные подшипники +3

12:54

EPT-MX-ADM: Новый уровень управления Matrix Synapse — Бета-версия v0.0.1 +3

12:44

DIY проект: cистемная информация на LCD дисплее GC9A01 (часть 1) +3

07:02

Покажи свой стартап/пет-проект (июнь) +3

10:23

Go-тесты: путь к надежному коду +2

02:02

Работа с RISC-V контроллерами на примере GD32VF103 и CH32V303. Часть 7. АЦП, ЦАП +2

12:00

Карьера системного администратора на заводе +1

10:59

Неожиданное место для рекламы: как антиспам-бот помог раскрутить мой Telegram-канал +1

10:32

Наше расследование: ищем отечественные микросхемы в «отечественных» счетчиках электроэнергии. Часть 4 и снова блогер… +142

13:05

Наш CEO хочет no-code в проде. Я против — и готов уйти +65

08:05

Оживляем топливомер из кабины «Боинга» +46

13:01

Как я «случайно» получил root-доступ к платёжному терминалу +44

14:57

Я построил систему управления жизнью и она Вас шокирует +40

09:01

TIG сварка в домашней мастерской, начало. Обзор, подборка мелочей. Часть 2 +36

09:24

Diplodoc 5.0: как ускорить сборку документации в пять раз +25

10:53

Как организовать идеальное рабочее место: проверенные решения от команды Selectel +23

12:42

Программируя с использованием AI ты продаешь душу дьяволу +22

08:53

Что происходит с вашим JavaScript-кодом внутри V8. Часть 1 +21

13:41

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё +19

13:20

Электрификация России. Прогресс и промышленный фокус +18

08:31

«Разработчик – легенда»: анатомия волчистости в IT +18

17:10

Практическая инструкция для чайника по использованию нейросетей в разработке +17

14:00

Плоские контейнеры в C++23 +17

10:22

10 наивных советов тем, кто только начинает работать +17

11:08

Почему джуны — это инвестиция в команду, а не слабое звено? +14

07:52

Домашняя мастерская по ремонту электроники: работа с ЛБП, мультиметром и осциллографом +14

16:28

Vue. Watch и WatchEffect на практике +12

12:00

Nokia 6555: раскладушка, которая зажигала в 2000-х. Что внутри? +12

07:00

Редизайн Яндекс Карт: почему мы перекрасили дороги +218

08:05

Газоразрядное табло для машины времени, или как я оказался в титрах к японской дораме +127

13:01

Мирный порох +80

07:31

Как ускорить сложение и вычитание при помощи 2^51 +61

12:01

Почему мы до сих пор пользуемся QWERTY: история самой неэффективной раскладки +57

15:01

Мифы цифровой революции: почему гиперлупы не летают, а ИИ не правит миром (пока что) +55

04:53

Закат инженерной науки и что бы я посоветовал молодым людям, которые мечтают стать инженерами? +44

09:01

Просто редчайшая ГДР-овская Musima или уникальная мастеровая электрогитара из СССР? +41

13:00

Бизнесу не нужно внедрять ИИ. Рассказываю, как ИИ-хайп ослепил российские компании +39

09:01

Как СМИ, консультанты, инфоцыгане и прочие провоцируют переработки и корпоративную шизу. Часть 4 +37

08:05

Edge AI: локальный инференс — новый драйвер эффективности бизнеса +32

09:55

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов +27

07:51

ZLinq — Zero-Allocation LINQ-библиотека для.NET +27

06:04

Это личное! Как femtech-приложения защищают наши данные +27

08:09

«Кобра»: персоналка эпохи социализма, о которой вы не знали +26

10:24

Данные на продажу: что происходит с информацией после утечек +25

08:12

Как устроены фотонные компьютеры +25

06:08

Исчисление геометрии Часть 1. Алгебры Клиффорда +23

08:30

3D для каждого. Оптимизация. Часть 4. Ремейк меша +20

08:01

Сложный способ писать программы +20

ОБСУЖДАЕМОЕ

  • Закат инженерной науки и что бы я посоветовал молодым людям, которые мечтают стать инженерами? +44

    • 545   65000

    Редизайн Яндекс Карт: почему мы перекрасили дороги +218

    • 363   53000

    «Разработчик – легенда»: анатомия волчистости в IT +18

    • 105   12000

    Наш CEO хочет no-code в проде. Я против — и готов уйти +65

    • 102   10000

    Почему мы до сих пор пользуемся QWERTY: история самой неэффективной раскладки +57

    • 70   17000

    Программируя с использованием AI ты продаешь душу дьяволу +22

    • 59   4800

    Мирный порох +80

    • 59   6300

    Я построил систему управления жизнью и она Вас шокирует +40

    • 55   14000

    Наше расследование: ищем отечественные микросхемы в «отечественных» счетчиках электроэнергии. Часть 4 и снова блогер… +142

    • 54   14000

    Мифы цифровой революции: почему гиперлупы не летают, а ИИ не правит миром (пока что) +55

    • 53   5800

    Бизнесу не нужно внедрять ИИ. Рассказываю, как ИИ-хайп ослепил российские компании +39

    • 50   6500

    Образцовый джун +19

    • 50   4300

    Русская Ардуино — опять приклеили шильдик на китайский девайс? +43

    • 40   3600

    Безумный эксперимент: запускаем GTA V на Pentium 4 — возможно ли это? +11

    • 37   3600

    QapDSL — декларативное описание AST и парсеров для C++ +4

    • 36   1200
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.