Работа мечты и бесплатный кластер на 1 миллион мета-данных / forpes.ru

Главная
Работа мечты и бесплатный кластер на 1 миллион мета-данных

Работа мечты и бесплатный кластер на 1 миллион мета-данных +9

20.06.2016 15:25

OzzyTech 18 8800 Источник

Доброго времени суток!

Мы решили дать публичный доступ к архиву 1 млн насыщенных мета-данными сообщений соцмедиа (несколько сотен источников, включая посты и комментарии соцсетей, блогов, форумов, СМИ и т.п.).
Предлагаем попробовать свои силы в создании различных эвристик, закладываемых в классические SMA-системы (Social Media Analytics). Чем больше эвристик вы придумаете и сможете реализовать, тем выше ваш класс в Data Scientist. Возможно в вас живет настоящий профи: Data Scientist — одна из крутых профессий ближайшего будущего!

Для состоявшихся фанатов-профи — это возможность проверить и показать свои способности, а также, при обоюдном желании и радости, получить годовой контракт на $30.000 — $50.000.

Подробнее под катом

Стратегический ситуационный уровень:

— Ежедневно человечество генерит десятки (30-40) млрд онлайн-сообщений, из которых 5-7% публичных.
— Русскоязычные сообщения составляют 2-3% мирового потока, т.е. ~100 млн в сутки.
— В отличие от структурированных данных (чеки в магазине, информация о звонках, электронные платежи и пр.) НЕструктурированные данные требуют других инструментов для создания аналитических систем и подходов к анализу данных аналитиками: скоростная лингвистика, нечеткие мета-данные, «размазанная» геолокация, выявление и противодействие «чужому разуму» (ботам) и т.д., и т.п.

Тактический уровень:

— Человечество практически «закончилось» — темпы прироста в онлайн и генерации контента составляют естественные единицы процентов.
— Платформы сбора данных, а также первичного анализа (SMA — Social Media Analytics), включая и лингвистические модули (обычно самые медленные процессы) вышли на промышленный уровень, справляясь с текущими потоками генерации данных.
— Теперь дело за «мозгами» — какие (адаптивные) алгоритмы AI (ИИ, искусственного интеллекта или машинного самообучения) будут создаваться, развиваться и применяться для решения реальных задач человеческого социума.

Понятийный пример (см. картинку выше):

Есть набор насыщенных мета-данными соцмедиа-сообщений, а также некий стандартный набор эвристик, выработанных аналитиками для клиентов в течение нескольких лет, например: количество сообщений (иногда с разбивкой по периоду), разблюдовка по коммуникационным каналам и т.д. Если сообщения дополнить «непрямой» информацией мета-данных, отсуствующих в исходном сообщении (т.е. задействовать «мозги и память»), то для твитов можно доопределить пол (отсутствующее поле в аккаунте), а для комментария к статье в СМИ доопределить, например, гео по фразе «Болею за наших в Париже». Тогда можно создать НОВУЮ эвристику — показать сообщения на карте, актуализируя такие аттрибуты, как концентрация и гео-динамика события.

Насыщение и расширение мета-данных — сама по себе интересная задача, которая уже частично и в разной степени успешности решается в крупных компаниях (IBM, Google, MS), и соцсетях (Facebook, Twitter, LinkedIn). Для этих процессов чаще всего задействуют появляющиеся новые технологии — например, определение людей по фотографиям, или получение доступа к данным о физических перемещениях людей (телеком-метки).

Наступает момент, когда технологии и задачи выходят на следующий уровень «мозговитости» — когда системы САМОСТОЯТЕЛЬНО находят новые закономерности и делают прогноз о развитии событий и ситуаций.

Подобные фазы развития прошли, например, автоматические финансовые роботы: на анализе прошлых данных строились различные модели и эвристики, которые далее в автоматическом режиме работают и зарабатывают (как минимум разработчики этих роботов).

Профессия Data Scientist предполагает некоего кентавра: смесь программиста с аналитиком. Чего в кентавре больше — дело важное, но вторичное, главное — результат деятельности специалиста. По прогнозам исследовательских агентств потребность DS только в США составит 180.000 человек.

Конкретика:

1. 1млн+ публичных сообщений с мета-данными выложены в публичный доступ:
CSV, 55 мб
JSON, 350 мб (традиционный json. Один массив с 1млн+ объектами)
JSON, 415 мб (Один json-объект на 1 строку, разделитель LF ("\n") )
Данные представляют собой некую выборку за ~6 часов одного дня.

2. Для интересующихся и желающих попробовать свои силы и возможности — попробуйте «повторить» простейшие эвристики, закладываемые в классические SMA-системы. Чем больше эвристик вы придумаете (подсмотрите) и сможете реализовать, тем выше ваш класс в DS. В обязательном порядке найдите критерий выборки данного 1 млн сообщений. Напомню, что по статистике дневной набор русскоязычного потока ~100 млн, значит за несколько часов должно было бы быть 10-15 млн, а в выборке — только 1 млн. Что могло быть критерием выборки? Небольшая подсказка — обычно простые выборки делаются по словам («ключевикам»).

3. На Хабре периодически появляются посты по анализу неструктурированных данных, вполне возможно, что кто-то из фанатов-профи согласится участвовать в нашем новом R&D-спиноффе на постоянной основе (годовой контракт, $30-50тыс). Не имеет значение пол, возраст, образование, место проживания, значение имеет только результат, который нужно реализовать на данном наборе данных, и желание творить и создавать НОВЫЕ эвристики.

Каким результатом может похвастаться профи:

— Стандартные статистики SMA — данных полей в мета-данных вполне хватает для понимания.
— Расширение новыми мета-данными, за счет сбора дополнительных данных по авторам набора из соцсетей, например: женат/холост, учится/работает, дети/родители.
— «Интеллектуальные» мета-данные — очень сильный плюс. Например: динамика тональности высказываний, или кластеризация интересов.
— И, конечно, НОВЫЕ эвристики, которые только придут в голову.

Если будет получаться что-то интересное — присылайте на sz@palitrumlab.ru.
Код присылать не надо! Только таблички или картинки с результатами.

P.S. К существующей Платформе данных SDS и лингвистической платформе EurekaEngine мы сейчас ведем разработку Платформы мета-данных. Надеемся, что к концу года мы сможем обеспечить доступ ко всем Платформам для разработчиков разных уровней, а также групп и команд, в целях создания сторонних новых решений и систем, для работы которых необходимо получать открытые данные из соцмедиа и публичные наборы данных.

UPD: не прошло и часа, как пришли первые «картинки» с эвристиками «А что за выборка»:

UPD2: Dropbox закрыл доступ после пары тысяч скачиваний, CSV и JSON доступен на Я.Диске, Заодно выложена версия JSON с одним объектом на строку.

Поделиться с друзьями

-->

Комментарии (18)

MaxAkaAltmer
20.06.2016 21:13
#9665572
+4
Вы бы данные выложили, на собственный сервер, а не на DropBox, который требует регистрацию. Не солидно.
Похоже у вас не хватает собственной фантазии для эвристик и вам нужны идеи, может лучше провести конкурс с призами? Чем обещать трудоустройство, которое лично меня не впечатляет нижней планкой.
1. OzzyTech
  20.06.2016 21:24
  #9665592
  1. DropBox позволяет скачать без регистрации. Ссылки на отказ от регистрации и перехода к процессу скачивания находятся внизу страниц.
  
  2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.
  
  3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.
  1. MaxAkaAltmer
    20.06.2016 21:38
    #9665620
    Ответил чуть ниже, увы исправить уже не могу.

OzzyTech
20.06.2016 21:22
#9665588
Ответил не в ветку. Исправил
1. MaxAkaAltmer
  20.06.2016 21:34
  #9665610
  +1
  1. Поверьте таких как я будет много. Можете из-за банальной вещи — упустить кого-то стоящего. Но дело хозяйское, лично я использую свой сервер для подачи материалов, чтобы не было лишних проблем.
  
  2. И какова мотивация сторонних команд?
  
  3. Я скептик. Верхняя — средний уровень аутсорсера для США. Хорошая вполне, во ее бы и сделал нижней — мотивированных людей значительно прибавится, тем более, говорите, что и больше можно.
  1. OzzyTech
    20.06.2016 21:48
    #9665634
    2. Заработать. PaaS — отичная схема множества стартапов и компаний для реализаций потребностей клиентов в Slack, Bitrix24, Google Adwords и множества других.
    Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.
    
    P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
    — Динамика распространения гриппа (аналог Google Flu) по городам России.
    — Кто еще пойдет на мероприятие?
    — Где родились и где живут сейчас – карта и волны миграции
    — Автоклассификация интересов аккаунта.
    — Родительский контроль за семейными аккаунтами, упоминаний ребенка
    — Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
    — Кластеризация и персонализация инфопотоков
    — Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
    — Нахождение «друзей по интересам», а не знакомых.
    — Сообщения и фотки людей, находящихся рядом.
    …
    
    MaxAkaAltmer
    20.06.2016 22:15
    #9665652
    Спасибо за развернутый ответ.
    Почему-то вспомнил мультик про козленка, который всех посчитал.
    
    OzzyTech
    20.06.2016 22:22
    #9665662
    Один из самых прекрасных мульт-персонажей. Столько желающих «вломить» этому козленку было ;)
    Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.

kretuk
20.06.2016 23:13
#9665700
-6
Можно много всего красивого понаписать, покрасоваться, а потом узнать, что у вас эта ваша платформа сделано на пхп. и все как-то сразу плавно превращается в цирк…
1. OzzyTech
  20.06.2016 23:18
  #9665702
  +2
  P.S. Не очень понял насчет PHP — что в нем такого плохого? Разные части Платформ написаны на разных языках и средствах: и PHP, и C/С++, и Java, кое где и ассемблер встречается.
  
  По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.
  
  Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…

kretuk
21.06.2016 08:33
#9665936
-3
что же тут не понятного? делать сервисы на пхп — это не серьезно. это говорит о том, что нанять хороших специалистов вы не можете. поэтому разговоры по «нижняя планка 30K $ в год» и есть цирк.

paranoik2
21.06.2016 12:53
#9666432
проблема со скачиванием

Error (429)
This account's links are generating too much traffic and have been temporarily disabled!
1. OzzyTech
  21.06.2016 12:55
  #9666442
  Dropbox (бесплатный) выдал два письма-прежупреждения (слишком много загрузок) и закрыл доступ. Сейчас коллеги закачают на другой хостинг, ссылки поменяем.
  1. OzzyTech
    21.06.2016 13:25
    #9666576
    CSV — доступен на Я.Диске. JSON заодно решили оптимизировать (из стандартного отчета SMA, который не особо оптимизирован для таких объемов) по весу
    
    paranoik2
    21.06.2016 14:01
    #9666696
    За оптимизированный JSON отдельное спасибо )
  1. imageman
    22.06.2016 12:21
    #9668852
    Подобные большие файлы лучше раздавать через торрентовские магнит-ссылки.

maxood
21.06.2016 23:02
#9667954
+1
В вашей таблице есть уникальный ключ? Как вы собираетесь проверять результат исследований?
В JSON-файле 1 013 063 записей, при этом уникальных idExternal — 1 011 071.
Например — cat ./messages.json | grep \«idExternal\»:\«5-41:\» | wc -l
1205

Уникальных url еще меньше — 977462.

Поясните, как вы будете сопоставлять «эвристики» с исходными данными и, вообще, что вы подразумеваете под термином «эвристика»?
1. OzzyTech
  22.06.2016 11:13
  #9668604
  Никакого уникального ключа нет. Это обычный последовательный по времени поток данных соцмедиа с фильтром по слову «я» (с включенной морфологией). Механистический подход «взвесить в граммах» — никому не интересен.
  Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0
  
  Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:
  
  и