• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
09:01

В GitHub Actions, пожалуй, худший пакетный менеджер +30

08:00

Станет ли FreeBSD 15.0 новым шагом в развитии свободной ОС +28

11:20

Тайная жизнь оконного стекла: история, технологии и немного олова +22

13:01

Дело Solar Sunrise: кто «ломал Пентагон» в феврале 1998 года? +21

05:00

Минимальный набор практик для микросервиса +21

10:28

Я доверил деньги нейросети, чтобы не сидеть у монитора 24/7: результаты эксперимента с алготрейдингом +20

16:43

Если вы эксперт 45+ и вдруг решили сменить работу +18

14:55

Абсурд прогресса. Почему «высокий уровень жизни» не продлевает годы, а крадет их? +18

15:16

Ретроспектива 2025: Денежный дождь закончился +14

13:20

Самобеглый чемодан +10

12:45

Как Европа развивает свою open source-экосистему — и какие новые возможности по кооперации появляются у стран БРИКС +10

16:05

Телевизионные передачи 90-х +9

12:15

Полиграф: иллюзия точности. Как метод без научного фундамента нарушает права и манипулирует законодательством +6

07:00

[Resource Quota] А что, если ваш финансовый потолок — это не баг, а защита от перегрева? +6

22:11

Пожалуйста, почините найм +5

19:36

Ночь, телескоп, ИИ, комета: анализ спектра 3I/ATLAS с собственным Python-pipeline +5

13:30

Новогодний IT-челлендж для разработчиков: сможете расшифровать сообщение? +5

11:15

Веб-мониторинг МФУ и уровня тонера через SNMP на Python + Flask +5

06:02

Управление проектами: дайджест публикаций #47 +5

03:50

Ученые обнаружили скрытые ускорители частиц в околоземной космической плазме +5

08:00

Почему xor eax, eax используется так часто? +63

20:08

Скажи yay -S say +57

16:22

В прошлом квартале я внедрил Microsoft Copilot для 4000 сотрудников +44

19:05

Вот такие пироги… Почему нам врут круговые диаграммы +43

14:07

Инженерное чудо Compaq'а из 90-х… +35

09:01

История дирижаблей. Часть 2: рождение и смерть французского дирижаблестроения +31

12:00

Бунт против IBM, или как хакеры сломали систему и сделали компьютеры персональными +27

13:01

Ассемблер для гоферов. Структура и макросы. Часть 2 +25

07:54

«Прочный как кирпич»: сервер от Nokia, Dataflow-ускорители и не только +22

06:15

Ловушки PowerShell: поведение, которое ломает привычные ожидания разработчиков +16

09:05

Как работают современные браузеры. Часть 2 +14

17:16

Как весь день быть продуктивным: не выгореть и покончить с прокрастинацией. Часть 3 +12

15:01

Open source-стратегии: как работать с партнерами на базе открытых технологий — опыт Александра Нозика, директора SPC +10

14:52

librats: Выпуск версии 0.5.x. Ускорение поиска пиров, алгоритм spider, поддержка JavaScript, Python и многое другое +10

18:36

Арифметика сверточных слоев. Вычисляем размерность изображения с учетом stride, padding и dilation +7

11:32

11 полезных фичей Chrome DevTools часть 2 +7

07:28

Транскраниальный стимулятор (tDCS) своими руками +7

15:45

Обнови ICU в PHP 7.3 intl на Centos 7, если осмелишься +6

08:34

Бросаем Event Loop, переходим на Горутины: Go для JS-девелоперов (Часть 1) +5

20:25

Сборка высокопроизводительного AI-десктопа +4

ОБСУЖДАЕМОЕ

  • Бунт против IBM, или как хакеры сломали систему и сделали компьютеры персональными +27

    • 87   12000

    Я доверил деньги нейросети, чтобы не сидеть у монитора 24/7: результаты эксперимента с алготрейдингом +19

    • 80   38000

    Инженерное чудо Compaq'а из 90-х… +35

    • 67   12000

    Абсурд прогресса. Почему «высокий уровень жизни» не продлевает годы, а крадет их? +18

    • 65   6800

    Если вы эксперт 45+ и вдруг решили сменить работу +18

    • 59   8400

    Эдсгер Дейкстра «О вреде оператора go to» +1

    • 31   8200

    [Resource Quota] А что, если ваш финансовый потолок — это не баг, а защита от перегрева? +7

    • 30   6400

    Почему xor eax, eax используется так часто? +63

    • 29   17000

    Новогодний IT-челлендж для разработчиков: сможете расшифровать сообщение? +5

    • 22   6800

    Ретроспектива 2025: Денежный дождь закончился +14

    • 20   6400
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.