• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
07:00

Встреча ISO C++ в Софии: С++26 и рефлексия +20

08:02

Acer Switch One 10: как я спас необычный планшет-трансформер с барахолки. Что это за устройство? +10

07:30

Цены на дата-центры растут, а ИИ может сдристнуть в Казахстан +10

07:00

Спасаем умный дом на KNX: как быть, если интегратор залочил оборудование +7

07:45

Культура перестраховки: мы смогли перестать согласовывать всё подряд +5

07:14

Как чек-лист в Confluence убил 70% вопросов о релизах — без автоматизации и бюджета +5

07:01

ElastAlert 2 на практике: как я создал универсальное правило для мониторинга событий +5

04:27

Как я прокачал английский до B2 в США, разработав своё языковое приложение +5

08:05

Дизайн за 5 минут. Дайджест июня +4

08:00

Десять распространенных заблуждений, связанных с RISC-V +4

07:22

Base 44: как пет-проект сделанный ИИ, купили за $80 млн +4

07:13

Синдром Бога vs. Реальные Боги +4

07:02

Ликбез по ЭДО: почему это не просто техническое подключение, а пересмотр процессов, которыми нужно заниматься заранее +4

06:28

Тестируем Revit с GPU. Что показывают A16 и L40S +4

05:33

in-аргументы в C#: чем они отличаются от ref, out, и где реально полезны +4

04:17

Почему n8n важен в автоматизации бизнеса: примеры успешной автоматизации +4

08:44

(Не) безопасный дайджест: бабушка-хакер, псевдо-ТП и клондайк краденных кредов +3

08:44

ИИ-помощник редактора на Хабре: семь раз вайб-код — один раз поймешь +3

04:40

Аналитика зарплат в IT, симулятор бэкенд разработчика — и ещё 8 российских стартапов +3

08:44

Who you gonna call? Dustbuster! История создания одного из первых беспроводных пылесосов +2

09:01

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций +94

08:48

Как я убедил виртуальную машину, что у неё есть кулер +78

16:18

NoDPI4Android. Решаем проблему «деградации» YouTube теперь и на Android +62

23:59

Синдром бога: когда ты просто кодишь, а ждёшь миллионы и поклонения +52

07:01

Федеративные возможности YDB: масштабируем разработку вместе со студентами +45

08:04

Я сплю на рабочем месте и вам советую +44

08:08

Регулярные выражения простыми словами. Часть 3 +39

13:01

Радость создания хобби-программ +32

07:43

Как я использую терминал +31

15:01

Большое испытание тюменских кальциевых аккумуляторов: часть 1 — циклирование по ГОСТ +24

12:31

Дайджест новостей из мира науки за прошедшую неделю +22

12:00

Lisuan G100: первый игровой графический чип из Китая. Возможности новинки +21

01:54

О векторном вычислении экспоненциальной функции +19

13:40

Мой худший образец полезного кода +18

13:04

POLLUX: оценка генеративных способностей моделей для русского языка +18

07:35

Продакты в Китае: как мы искали вдохновение для 2ГИС в стране, где навигация — это искусство +17

08:15

Подводные камни у материнских плат из Поднебесной +16

18:13

После 13 лет разработки ReFS так и не готова заменить NTFS +15

14:22

Как я проектирую и разрабатываю реальные расширения для Python на Rust +15

06:25

Какое мрачное(?) будущее нас ждёт по версии Илона Маска +15

08:46

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к) +119

18:14

Подтверждение ИТ-компетенций на ГосУслугах, стоит ли доверять? +60

12:15

Нейробиология восприятия: почему мы никогда не увидим мир «глазами» животного +58

08:00

SoundBlaster AWE32: как звуковая карта из 90-х получила обновление спустя 30 лет +54

09:01

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов +43

07:57

Кромешная темнота: почему случился блэкаут 2025 года в Испании и Португалии +41

07:05

Ностальгические игры: Fallout +36

13:01

«The Legend of Zelda: Breath of the Wild» — идеальный открытый мир, но какой ценой? +31

11:41

Право на ошибку: история изобретательницы замазки +29

07:08

Анджелина Джоли была права насчёт компьютеров +23

08:57

Project Vend: может ли языковая модель продавать чипсы и вольфрам? +20

02:54

Почему Россия не сможет переломить упадок демографии? +20

15:15

MVP vs MLP: почему минимально жизнеспособного продукта уже недостаточно в 2025 году +18

10:15

Полный гид по 50 идеям, которые формируют современное мышление: от А до Я +17

15:14

Джейлбрейкаем чатботы: ChatGPT без фильтров +12

05:10

Готовим формулы красиво (Libre Office, MS Office и LaTeX) +11

09:00

Как в СССР придумали настольную игру про фондовый рынок +10

15:59

Caddy и 100к доменов: автоматический SSL при одностраничном конфиге +9

13:56

Базы данных. Как выбрать идеальное решение? Полный гид по SQL, NoSQL и не только +9

07:15

ИИ-ассистент программиста: есть ли риск для студентов? Об опыте применения ассистента в образовательном процессе +9

ОБСУЖДАЕМОЕ

  • Почему Россия не сможет переломить упадок демографии? +20

    • 836   32000

    В айти нет денег и повышений -39

    • 299   37000

    Кромешная темнота: почему случился блэкаут 2025 года в Испании и Португалии +41

    • 184   9000

    Мы всё чаще не отличаем реального автора от AI +8

    • 156   1900

    Нейробиология восприятия: почему мы никогда не увидим мир «глазами» животного +58

    • 133   120000

    Подтверждение ИТ-компетенций на ГосУслугах, стоит ли доверять? +61

    • 126   31000

    Польза от «качалок» — любительского бодибилдинга +14

    • 113   22000

    «Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций +105

    • 79   17000

    Почему тебя поймают списывающим на собеседовании (а ты об этом даже не узнаешь) +2

    • 74   14000

    Анджелина Джоли была права насчёт компьютеров +23

    • 68   21000

    Я сплю на рабочем месте и вам советую +44

    • 64   27000

    Новый двигатель, способный работать на любом топливе, мог бы составить конкуренцию электромобилям +2

    • 57   8700

    Какое мрачное(?) будущее нас ждёт по версии Илона Маска +15

    • 55   5000

    Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к) +119

    • 52   27000

    Досмотр мемов на границе США, а также ипотека под залог фарткоина +15

    • 49   8100
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.