• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
08:01

Как я оживил Chuwi HeroBook в два приема: ремонт BIOS и клавиатуры +34

07:09

HackRF One. Начало работы и варианты применения +22

10:20

S3 изнутри: как работать с объектным хранилищем и не сойти с ума +21

07:00

Краткая история игровых мемов +17

05:20

Отрицание, гнев, торг, депрессия, третий номер FPGA журнала +15

07:00

WHIP — стандартный протокол общения WebRTC приложений +13

05:36

15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик +9

09:01

Как переработки плодят ещё больше переработок и гробят бизнес +8

07:50

Разработка с учетом паттернов WAI ARIA +7

09:25

Как мы снимали «Красный шёлк» с помощью виртуального продакшна: ретро-поезд в павильоне, LED-экраны и работа со светом +6

06:37

Дружеское знакомство с SVG +6

05:15

Про esModuleInterop и совместимость модулей ES6 и CommonJS +6

09:29

OpenAI изнутри: разработчик рассказывает об устройстве миллиардной ИИ-компании +5

09:01

Ремонтируем и дорабатываем подписной овердрайв Ингви Мальмстина +5

08:44

Как развивалась российская система централизованного управления IT-инфраструктурой «Ред Адм». Интервью с разработчиками +5

06:16

Парсинг российских СМИ +5

09:15

Как я написал современный GUI для yt-dlp на Python +4

08:59

ИИ для «чайников» +4

07:01

Как мы научили ML группировать 50 000 событий в инциденты +4

06:49

Оптимизация процессов тестирования. Часть 1: инструменты и среда +4

07:00

Куём железо. Чем отличается конструирование электроники от разработки ПО +55

09:01

Очень вероятно, что эти HTML- и CSS-ошибки есть в вашем коде +44

10:52

T-one — открытая русскоязычная потоковая модель для телефонии +43

19:16

Geely и ECARX, что с вами не так? +40

06:32

Звук — хитрый зверь. Пролезает даже через бетон. Я покажу, как мы его ловим +38

12:01

Погружение в Go: подборка ресурсов для новичков и продолжающих +34

08:05

35-летний юбилей! Советский «Поиск-1» выходит в Cеть +30

09:19

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework +28

07:00

Как это сделано: автомойка без персонала +28

13:01

Интервью с ИИ: как бы LLM спроектировала ЦОД +26

08:00

Глючная эстетика. Баги как неожиданное искусство в играх +25

21:31

Ваш сайт теряет пользователей прямо сейчас. Виноват один символ: '+' в email +22

12:49

Как хитрый Накамура глупую Рыбку обыграл +20

07:00

Tiki: как норвежцы строили своё IT +20

09:00

Как девопсы контейнеризацию с виртуализацией дружили +19

09:00

Как девопсы контейнеризацию с виртуализацией дружили +19

07:00

Обслуживание на высоте 36 тысяч километров: как Китай провел первую в мире дозаправку спутника на геостационарной орбите +19

08:49

IT-рынок в 2025 году: тренды и вызовы. Как искать работу в текущих реалиях? +18

06:59

Как смотрели рилсы в XIX веке, и при чём тут инженер из Петербурга +17

06:50

Бумажный геймдев: как увлечь ребёнка без интернета и гаджетов +17

14:10

Я беру джойстик, лечу в поле и зарабатываю 3,6 млн чистой прибыли за сезон +101

09:01

Инфракрасное сканирование микросхем +68

12:00

Как измеряли расстояние до Луны без компьютера и калькулятора? Открытия древних математиков +57

07:15

Когда VPN душат, в бой идёт SOCKS5: что нового в ProxiFyre 2.0 +52

13:01

Удивительный мир транспортных карт Японии +51

09:15

Джун за неделю или как инфоцыгане ломают найм в IT HR +41

08:35

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon +39

16:10

В Китае переместили квартал роботами, построили подземную парковку и вернули все обратно +36

15:01

GitLab CI/CD components: повторно используемый CI как путь к чистому и здоровому GitLab +33

08:00

REST API в облаке: пошаговый гайд на Java + Spring +33

04:53

Нейросетевая аниме-вайфу от Илона Маска, а также штрафы за гуглинг «экстремизма» +23

13:39

Как использовать AI-агент Claude Code: советы опытного разработчика +21

14:05

Будущее JavaScript: что нас ждет +20

15:19

Найм в IT мёртв, а я ещё нет… +17

09:55

Знакомьтесь: TCP-in-UDP +17

10:23

Картографический фотопроект «По местам съёмок фильма «Жмурки» +15

08:26

DIY-стенд для обучения автомобильной электронике, который сделает из новичка CAN-профи +15

12:42

Навайбкодил самый быстрый xlsx editor +14

12:00

Инструменты для работы с крупными чипами: трафареты и платформы +14

08:00

UX и ограничения памяти: как принципы геймдева помогают проектировать интерфейсы +14

ОБСУЖДАЕМОЕ

  • Я беру джойстик, лечу в поле и зарабатываю 3,6 млн чистой прибыли за сезон +101

    • 149   125000

    Джун за неделю или как инфоцыгане ломают найм в IT HR +41

    • 120   33000

    Найм в IT мёртв, а я ещё нет… +17

    • 94   6400

    Ваш сайт теряет пользователей прямо сейчас. Виноват один символ: '+' в email +22

    • 78   4500

    Когда VPN душат, в бой идёт SOCKS5: что нового в ProxiFyre 2.0 +52

    • 72   65000

    UX-рудименты, часть 2: дизайн, который остался жить в 2012-м +4

    • 57   4400

    Удивительный мир транспортных карт Японии +51

    • 45   12000

    «Кипр после Черногории как возвращение в город из деревни у бабушки»: греческий остров мечты глазами русских релокантов +9

    • 35   4100

    Как измеряли расстояние до Луны без компьютера и калькулятора? Открытия древних математиков +57

    • 35   12000

    Комментарии vs. самодокументируемый код: что выбрать? +10

    • 32   1600

    Как это сделано: автомойка без персонала +28

    • 31   3700

    Звук — хитрый зверь. Пролезает даже через бетон. Я покажу, как мы его ловим +38

    • 30   9300

    Про скорость обмена веществ у людей, он же метаболизм +5

    • 30   2200

    Когда Redis превращается в тыкву: как один DevOps провел 2 недели в аду и выжил (но какой ценой) +6

    • 29   6100

    Как устроено и как работает пенсионное обеспечение в Канаде +5

    • 28   6400
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.