Telegram продолжает традицию проведения «народных» конкурсов для своих пользователей с выплатой крупных денежных вознаграждений. На этот раз задача — создать агрегатор новостей. Раньше такую роль в рунете выполнял сервис «Яндекс.Новости», который теперь подчиняется требованиям властей и индексирует только специально отобранные источники информации.
В июне 2019 года Павел Дуров пригласил на работу в Telegram разработчиков из «Яндекса»: «Российская интернет-индустрия породила сотни талантливых разработчиков. Однако, в результате описанной выше политики, сегодня они вынуждены играть в поддавки со своими зарубежными коллегами, — написал он. — В своё время мы организовали ”Ноев ковчег” для лучших разработчиков ”Вконтакте”, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам ”Яндекса”, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как ”Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком».
Неизвестно, сколько разработчиков ушли из «Яндекса» в Telegram, но Дуров не отказался от идеи разработки агрегатора новостей, свободного от политической цензуры.
Конкурсантам предлагается пять заданий.
Задания конкурса
- Выделение текстов на русском и английском языках. Алгоритм должен выделить все англо- и русскоязычные тексты.
- Отделение новостей от других материалов (энциклопедических, справочных и т. д.)
- Группировка новостей по семи тематикам:
- Society (в том числе Politics, Elections, Legislation, Incidents, Crime)
- Economy (в том числе Markets, Finance, Business)
- Technology (в том числе Gadgets, Auto, Apps, Internet services)
- Sports (в том числе E-Sports)
- Entertainment (в том числе Movies, Music, Games, Books, Arts)
- Science (в том числе Health, Biology, Physics, Genetics)
- Other (новостные статьи, не попавшие в перечисленные выше категории)
- Society (в том числе Politics, Elections, Legislation, Incidents, Crime)
- Группировка похожих новостей в сюжеты с выбором общего заголовка. Новости внутри сюжета должны быть отсортированы по релеватности.
- Ранжирование сюжетов по важности. Кроме того, нужно сформировать отсортированный по релеватности список сюжетов вне зависимости от тематики.
Работы принимаются в виде standalone-приложения под названием
tgnews
с CLI-интерфейсом. Приложение запускается со следующими параметрами: tgnews languages source_dir tgnews news source_dir tgnews categories source_dir tgnews threads source_dir tgnews top source_dir
где
source_dir
— путь до директории с HTML-файлами, содержащими тексты статей. Приложение не должно использовать сеть, должно иметь высокую скорость работы и использовать минимум внешних зависимостей.
Для разработки участникам предлагаются два тестовых набора данных в формате HTML: 1, 2. В ходе конкурса будут периодически публиковаться дополнительные наборы данных. Проверка работ пройдёт на других наборах данных, в том числе с других доменов.
Возможно, объявленный конкурс поможет найти и разработчиков, и кандидатов на позиции Content Recommendation Engineer для будущего агрегатора новостей в Telegram. В прошлый раз Павел Дуров упомянул, что зарплаты в его компании «несопоставимо выше, чем в Яндекс или Google», но это не должно стать главной мотивацией: «У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей, — написал он. — Технология моментального просмотра новостей Instant View уже позволяет читать новости 6000 изданий по всему миру с любого устройства, а статистика их просмотров в каждой стране позволяет алгоритмически вычислять наиболее релевантный на данный момент контент. Рекомендации статей мы можем начать с блока Recommended Articles после прочтения каждой статьи в Telegram, постепенно выведя их в отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира. Параллельно с рекомендацией текстов мы займёмся и рекомендацией наиболее актуальных видеозаписей».