• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
05:16

Дело о Транзитроне — или Ламповый тьюториал для любопытных +7

04:53

Баффет наконец накопил достаточно для выхода на пенсию, а в OpenAI выкатили новый хитрый план +7

03:22

Как за один вечер создать репутацию вашего стартапа в поисковой выдаче: 20 бесплатных площадок для быстрого буста +7

06:16

Отправка label в систему логирования и мониторинга из метаданных GitLab Runner (job_id, pipeline_id) +3

05:00

Системный аналитик и управление хаосом на проекте. Часть 1: диагностика хаоса +2

05:30

Как автоматизация рутинных процессов помогает не доводить клиента до истерики +1

04:29

Webhook у Harbor или как я оповещения о пушах docker images нашей команды делал часть — 2 +1

03:14

Умный бизиборд +1

19:36

ООП не мертво. Вы просто пользуетесь им как молотком по клавиатуре +63

13:01

Как serverless-архитектура влияет на модернизацию инфраструктуры +31

09:01

Google Maps не знают, как работает адресация улиц +28

06:30

Дискретные тригонометрические функции, машинный эпсилон и автоматическое дифференцирование +25

10:05

Разговоры с мамой, остросюжетный роман и дофаминовые ловушки. Что и зачем читать продакту в 2025 году +24

08:00

Электробус из 1907 года от мошенников-стартаперов. И да, он возил пассажиров +18

07:00

От песка в глазах к панораме: как 49-дюймовый монитор заменил два 27-дюймовых и сделал жизнь и работу комфортнее +17

12:28

Как устроен arXiv — самая преобразующая платформа во всей науке +16

10:00

Multi-GPU Rendering для игр жив? +16

16:08

Как отключить слежку на умном ТВ +15

15:16

Заговор разработчиков против корпораций: работа с командой +15

09:15

Wizordum — пример правильной ностальгии +15

14:46

Что открыть в 2025, если ты не Илон Маск и не хочешь продавать курсы? +12

17:01

PTTJS — формат текстового хранения комплексных таблиц +11

17:21

CTO: рынок, стратегия и инженерная культура +10

14:00

Корпоративное ЕГЭ или как обучение сотрудников НЕ влияет на рост и эффективность +10

05:47

Убить героя: почему героизм — это выбор легкого пути, который вредит не только вам, но и окружающим +10

16:24

Корутины в C++20: архитектура и практическое применение +9

18:33

Пишем (и используем) ИИ-агент на Gradle и Ollama +8

11:57

Патоген с дуба рухнул? Спорный препринт биоинформатического исследования, который не будет официально опубликован +5

19:18

Конституция против цензуры: история одного иска в суд +141

14:05

Пишем один «exe», который работает на 3-х разных ОС без перекомпиляции +121

09:01

Спидометр для электромопеда на микроконтроллере PIC16F628A +57

11:02

Низкоуровневое программирование под 8086 для любопытных, часть 2 +50

14:12

Оцифровка показаний стрелочного манометра в Home Assistant +43

13:01

Про человека и свободу — реально главный вопрос жизни, вселенной и всего такого +40

08:00

Архитекторы чипов: как Китай строит инфраструктуру по производству современных процессоров +36

16:46

Творческая утилизация клавиатур +33

09:49

Не смотрите наверх +28

06:47

Размышления об интервью +23

13:01

Промпт-инжиниринг на основе здравого смысла: как понимать LLM и получать от них предсказуемый результат +22

11:52

Python, Java, C++ и Go — как появились популярные языки программирования +21

09:00

Фронтенд — новый легаси: Как мы проспали event-driven революцию +21

08:02

Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций +21

19:18

Проводим слепой тест переводов прямо на Хабре +20

17:24

Инженерия — не наука +18

08:24

Huawei и HarmonyOS PC: китайский десктоп с собственной ОС появится уже в этом месяце. Что это будет? +18

15:14

Почему нужно знать историю фронтенда, даже если просто пишешь на React +12

13:28

Немое кино: как инженеры превратили тени в магию экрана: «бегущие» картинки, фоторужья и 24 кадра в секунду +9

14:22

Есть ли смысл применять SOLID в React? +8

ОБСУЖДАЕМОЕ

  • Конституция против цензуры: история одного иска в суд +141

    • 224   10000

    От песка в глазах к панораме: как 49-дюймовый монитор заменил два 27-дюймовых и сделал жизнь и работу комфортнее +17

    • 186   27000

    Проводим слепой тест переводов прямо на Хабре +20

    • 79   2600

    Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций +21

    • 77   16000

    Аркадий Стругацкий против Deepseek и ChatGPT: как ИИ повлияет на художественный перевод +7

    • 75   6600

    Инженерия — не наука +18

    • 62   3100

    «Накопитель риска» в команде: как одиночные эксперты тормозят развитие +2

    • 59   4700

    Фронтенд — новый легаси: Как мы проспали event-driven революцию +21

    • 59   24000

    Не смотрите наверх +28

    • 52   13000

    «640 кбайт хватит для всего» +5

    • 47   13000

    ООП не мертво. Вы просто пользуетесь им как молотком по клавиатуре +63

    • 45   12000

    Пишем один «exe», который работает на 3-х разных ОС без перекомпиляции +121

    • 40   12000

    Google Maps не знают, как работает адресация улиц +28

    • 37   5100

    Оцифровка показаний стрелочного манометра в Home Assistant +43

    • 37   6900

    Про человека и свободу — реально главный вопрос жизни, вселенной и всего такого +40

    • 33   5200
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.