• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
05:16

Win32 API и ностальгия по окнам странной формы +97

08:00

Ремонт блока питания с Power Delivery. 470 граммов электроники +66

07:05

Механический калькулятор. Как работает арифмометр? +19

08:00

Программирование с AI-ассистентом — похороните меня под плинтусом +18

04:59

Замедление Телеграма замедлилось, а также законопроект об уголовной ответственности за крипту в РФ +18

07:21

«Великое очищение» в работе с контентом: что осталось от роли редактора +17

08:30

Что такое «мышечная память» и можно ли её развить? +12

01:54

Нейропластичность для разработчика — как учиться эффективнее +12

07:00

Не просто OpenBMC: как мы сделали свой BMC +10

09:25

ИИ существовал до компьютеров: Крышесносные примеры +9

09:01

Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц +9

09:30

ИИ-агенты в ИБ: путь к доверенному члену команды +8

07:01

Playwright vs Selenium на Java: что выбрать для автотестов в 2026 году +8

09:11

Кастомная клавиатура в 2026: как спустить премию на кейкапы с жабами и не пожалеть +7

08:12

Легенды 90-х — кто придумал и производил жвачки Turbo, Love is… и TipiTip +6

09:05

Объяснение лямбда исчисления через Python +5

07:40

Недельный геймдев: #274 — 19 апреля, 2026 +5

11:10

YouTube для мамы: VLESS + Reality без боли, консолей и конфигов +4

07:42

Как международные корпорации борются с киберсквоттерами с помощью товарных знаков +4

06:51

Linux 7.0: один Bash-скрипт, одни выходные, 23 года багов в ядре +4

00:53

DIY: Экранчик для «умного дома» +70

09:01

Я установил все расширения Firefox +49

08:00

Код Apollo 11 выглядит лучше современного софта. Похоже, мы где-то свернули не туда +45

11:05

«Фабрика монстров» Джорджа Лукаса: как в «Звездных войнах» создавали инопланетян без компьютерной графики +35

19:30

Умный подоконник: как ESP32 спас мой домашний огород (и что я узнал про «невидимые» пины) +33

13:01

«Управляя Солнцем»: умопомрачительная физика и смелые задачи звёздных машин +32

14:05

Китайский шедевр сумрачного гения из 2000-х +28

13:59

Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание +26

15:04

13 предпринимательских уроков из советской сатиры, которую вы читали не так +16

17:15

Cказ о том, как мы с Oracle на PostgreSQL переехали +14

11:24

Почему LLM Wiki Карпатого не стоит внедрять для личной базы знаний +14

16:05

Меньше слов, больше кода? Как опенсорс в Китае развивали — компании-инноваторы, евангелисты и выход на Гитхаб +13

13:46

ICMP-туннель на уровне ядра Linux: передаём TCP/UDP-трафик через эхо-запросы +13

15:45

Как я изобрёл велосипед: создание языка программирования с нуля ради одной игры и Telegram-бота +12

07:39

4 привычки, которые, как кажется, двигают вашу карьеру (но на самом деле ей вредят) +11

17:23

Сказать или не сказать — вот в чём вопрос? +8

14:00

Экс-налоговый инспектор отвечает на вопросы про проверки физических лиц +8

13:47

Контейнеры вместо серверов: Как устроена система обмена данными, которую нельзя заблокировать и подделать +8

13:30

NETоз: собственная ДНК как… оружие? +8

10:15

Приватная Cвязь на Go и Flutter +8

01:12

Мыслепреступление на Android: как скрыть Перехватчик трафика от Государственных приложений +157

09:01

Юбилей легенды +86

19:15

Почему JS/TS — не функциональный язык (и почему это важно понимать) +54

02:45

Как мы продавали компьютеры в 90-х. Шоу в нужную сторону +47

13:01

Почему не взлетели дирижабли? Часть 18: «Осоавиахим репортинг!» +45

11:58

NaïveProxy в sing-box (альтернатива VLESS) +36

08:01

Благородные рыцари в космосе. Вспоминаем сериал «Светлячок» +32

14:17

Теневой рынок GitHub звезд +31

17:18

Как я стал учителем за 5 минут: BAC в электронном дневнике +26

13:38

WebFlux vs Virtual Threads: что происходит при 2000 RPS +24

13:26

Как я тестировал локально новый Qwen 3.6 и Gemma 4 +24

18:39

Пост через 100 лет: как американцы возвращались к Луне и по дороге построили канцелярию +21

17:15

ИИ стирает рабочие места. Но кто тогда будет покупать? +21

20:15

Я хотел починить стиральную машину. В итоге пришлось проектировать свой разделительный трансформатор +18

23:32

Гармония чисел: как математика настроила музыку +15

20:45

Как я за 9 месяцев сделал свой видеосервис: сначала потому что надо было, а потом потому что понравилось +15

12:00

Пять мини-ПК середины весны: от производительных систем с водянкой до офисного «железа» +15

09:39

Ловушка «Пари Паскаля»: как страх перед будущим ИИ отвлекает нас от проблем в настоящем +15

08:00

Нет, ИИ вас не заменит. Вас заменит человек, работающий с ним +15

17:05

Opus 4.7, Codex управляет ПК, TTS от Google, бренд кроссовок «переобулся» в ИИ-компанию +14

ОБСУЖДАЕМОЕ

  • ИИ стирает рабочие места. Но кто тогда будет покупать? +21

    • 236   18000

    Win32 API и ностальгия по окнам странной формы +97

    • 162   14000

    Я хотел починить стиральную машину. В итоге пришлось проектировать свой разделительный трансформатор +18

    • 137   17000

    Мыслепреступление на Android: как скрыть Перехватчик трафика от Государственных приложений +157

    • 125   80000

    Как я тестировал локально новый Qwen 3.6 и Gemma 4 +24

    • 76   16000

    Clean Architecture + DDD в Go: как не превратить проект в 200 файлов ни о чём +14

    • 47   9500

    Ответ Джеймса Линдси на слова Маска о безусловном доходе +4

    • 46   8600

    NaïveProxy в sing-box (альтернатива VLESS) +36

    • 40   23000

    Почему JS/TS — не функциональный язык (и почему это важно понимать) +54

    • 39   17000

    Пост через 100 лет: как американцы возвращались к Луне и по дороге построили канцелярию +21

    • 36   16000

    Теневой рынок GitHub звезд +31

    • 35   13000

    Умный подоконник: как ESP32 спас мой домашний огород (и что я узнал про «невидимые» пины) +33

    • 29   18000

    Код Apollo 11 выглядит лучше современного софта. Похоже, мы где-то свернули не туда +45

    • 28   14000

    DIY: Экранчик для «умного дома» +70

    • 27   23000

    13 предпринимательских уроков из советской сатиры, которую вы читали не так +16

    • 25   11000
  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.