• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
08:00

Превращение в «жука»: эволюция IT-оборудования в дата-центрах Яндекса +41

04:16

Разблокируем бесплатный WiFi на рейсах British Airways +38

07:00

Как умываться и про наш биохимический снобизм +30

06:06

Демобаза 2.0 для PostgreSQL +30

09:01

Делаем интерфейс дружелюбнее. Коллекция простых HTML/CSS лайфхаков +29

08:00

Новый релиз OpenBSD 7.8 с поддержкой Pi 5 и многопоточным TCP +29

10:01

15 лучших оконных менеджеров для Linux в 2025 году +26

10:43

Гайд по ориентации Wi-Fi антенн для роутеров и причем тут пончики +23

10:15

MegaSD: новый адаптер для атаки DaMAgeCard, или Как подключить NVMe-диск к Nintendo Switch 2 +23

07:45

Я вернулся в 2000-й и поймал ILOVEYOU +22

13:01

Почему серверы не унаследовали название «мейнфрейм»? +20

08:51

Стилизация, часть 1: почему игры стали однообразными +20

07:11

Рынок труда и будущий рост в ИТ —  как заранее увидеть возвращение «Эльдорадо» через индикаторы рынка +17

18:07

Звёзды у нас в голове. О роли астроцитов в работе нейронных сетей +15

06:43

Как и зачем мы делали свое браузерное расширение для мокирования API +15

06:00

Партнерское соглашение: как я вернул контроль в ИТ-компании после корпоративного конфликта +14

13:39

Зачем компаниям платформенный подход и как он возникает даже без отдельной команды +13

13:10

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам +13

12:31

BuildKit в Kubernetes: мануал по быстрой и автомасштабируемой сборке проектов +13

07:05

Биомиметика — в технологиях +13

18:02

Хабр умирает, и это не кликбейт +263

16:40

Как я делаю круглогодичную кибер-бытовку на даче — комфортно как в квартире, но без многомиллионного бюджета на стройку +93

09:00

Яндекс обновляет процесс найма разработчиков. Рассказываю, почему мы пошли на такой шаг +69

09:01

Где туристы из будущего? +52

14:17

Как мы в Авито сделали свою LLM — A-vibe +47

22:08

Зачем нам спецсимволы в паролях? +43

13:01

Банковский спектакль KYC и AML +38

07:20

Arduino для агента 007 — Uno Q. Что это, зачем и как работает? +37

10:29

Мультиплексор, дешифратор… где великий комбинатор? +35

08:40

Экономика Kubernetes. Самостоятельное развертывание vs Managed Kubernetes on Bare Metal +34

05:28

Илон Маск хочет армию роботов, а также упавший AWS вскипятил «умные матрасы» +26

08:04

Я хакнул галактику +21

07:05

Клетки, яйца и видеоаналитика. Как устроена современная птицефабрика? +21

07:00

Как мы написали свой софт на базе «коробки»: автотранспорт производства +19

07:18

Эпоха цензуры мирового интернета +15

12:39

Флуд, «звоночек на 5 минут», голосовое гендира в час ночи: 7 рабочих привычек, которые ненавидит каждый +13

09:13

Внедрение автоматизированного AppSec конвейера за пару дней без смс и регистрации +13

08:00

Как мы с ИИ перезапустили документацию Bitrix Framework и сэкономили 400 часов +13

12:43

Клиентское кэширование в Angie +12

10:05

Полное руководство по HTTP-кэшированию. Часть 2 +12

ОБСУЖДАЕМОЕ

  • Хабр умирает, и это не кликбейт +263

    • 379   46000

    Яндекс обновляет процесс найма разработчиков. Рассказываю, почему мы пошли на такой шаг +69

    • 225   24000

    Как я делаю круглогодичную кибер-бытовку на даче — комфортно как в квартире, но без многомиллионного бюджета на стройку +93

    • 206   57000

    Где туристы из будущего? +52

    • 187   9000

    Я хакнул галактику +21

    • 121   6800

    Как ускорить Windows 11 и сделать ее более оптимизированной -29

    • 61   16000

    Зачем нам спецсимволы в паролях? +43

    • 57   5800

    IT-сектор после перегрева: миф о «схлопнувшейся отрасли» и реальное состояние рынка +12

    • 49   16000

    Arduino для агента 007 — Uno Q. Что это, зачем и как работает? +37

    • 37   11000

    15 лучших оконных менеджеров для Linux в 2025 году +26

    • 36   5600

    Что такое генетика, как работает, что знали про неё в 1800 — 1950 +8

    • 35   4400

    Вам не нужны внешние ключи -16

    • 34   2800

    Клетки, яйца и видеоаналитика. Как устроена современная птицефабрика? +21

    • 34   4600

    Меня мучила депрессия, не хватало искорки, и тут я открыл свое производство +5

    • 29   26000

    Азарт против алгоритма: почему онлайн-казино не играет в кости со вселенной +1

    • 26   2800
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.