Доброго времени суток!

Мы решили дать публичный доступ к архиву 1 млн насыщенных мета-данными сообщений соцмедиа (несколько сотен источников, включая посты и комментарии соцсетей, блогов, форумов, СМИ и т.п.).
Предлагаем попробовать свои силы в создании различных эвристик, закладываемых в классические SMA-системы (Social Media Analytics). Чем больше эвристик вы придумаете и сможете реализовать, тем выше ваш класс в Data Scientist. Возможно в вас живет настоящий профи: Data Scientist — одна из крутых профессий ближайшего будущего!

Для состоявшихся фанатов-профи — это возможность проверить и показать свои способности, а также, при обоюдном желании и радости, получить годовой контракт на $30.000 — $50.000.



Подробнее под катом

Стратегический ситуационный уровень:

— Ежедневно человечество генерит десятки (30-40) млрд онлайн-сообщений, из которых 5-7% публичных.
— Русскоязычные сообщения составляют 2-3% мирового потока, т.е. ~100 млн в сутки.
— В отличие от структурированных данных (чеки в магазине, информация о звонках, электронные платежи и пр.) НЕструктурированные данные требуют других инструментов для создания аналитических систем и подходов к анализу данных аналитиками: скоростная лингвистика, нечеткие мета-данные, «размазанная» геолокация, выявление и противодействие «чужому разуму» (ботам) и т.д., и т.п.

Тактический уровень:

— Человечество практически «закончилось» — темпы прироста в онлайн и генерации контента составляют естественные единицы процентов.
— Платформы сбора данных, а также первичного анализа (SMA — Social Media Analytics), включая и лингвистические модули (обычно самые медленные процессы) вышли на промышленный уровень, справляясь с текущими потоками генерации данных.
— Теперь дело за «мозгами» — какие (адаптивные) алгоритмы AI (ИИ, искусственного интеллекта или машинного самообучения) будут создаваться, развиваться и применяться для решения реальных задач человеческого социума.

Понятийный пример (см. картинку выше):

Есть набор насыщенных мета-данными соцмедиа-сообщений, а также некий стандартный набор эвристик, выработанных аналитиками для клиентов в течение нескольких лет, например: количество сообщений (иногда с разбивкой по периоду), разблюдовка по коммуникационным каналам и т.д. Если сообщения дополнить «непрямой» информацией мета-данных, отсуствующих в исходном сообщении (т.е. задействовать «мозги и память»), то для твитов можно доопределить пол (отсутствующее поле в аккаунте), а для комментария к статье в СМИ доопределить, например, гео по фразе «Болею за наших в Париже». Тогда можно создать НОВУЮ эвристику — показать сообщения на карте, актуализируя такие аттрибуты, как концентрация и гео-динамика события.

Насыщение и расширение мета-данных — сама по себе интересная задача, которая уже частично и в разной степени успешности решается в крупных компаниях (IBM, Google, MS), и соцсетях (Facebook, Twitter, LinkedIn). Для этих процессов чаще всего задействуют появляющиеся новые технологии — например, определение людей по фотографиям, или получение доступа к данным о физических перемещениях людей (телеком-метки).

Наступает момент, когда технологии и задачи выходят на следующий уровень «мозговитости» — когда системы САМОСТОЯТЕЛЬНО находят новые закономерности и делают прогноз о развитии событий и ситуаций.

Подобные фазы развития прошли, например, автоматические финансовые роботы: на анализе прошлых данных строились различные модели и эвристики, которые далее в автоматическом режиме работают и зарабатывают (как минимум разработчики этих роботов).

Профессия Data Scientist предполагает некоего кентавра: смесь программиста с аналитиком. Чего в кентавре больше — дело важное, но вторичное, главное — результат деятельности специалиста. По прогнозам исследовательских агентств потребность DS только в США составит 180.000 человек.

Конкретика:

1. 1млн+ публичных сообщений с мета-данными выложены в публичный доступ:
CSV, 55 мб
JSON, 350 мб (традиционный json. Один массив с 1млн+ объектами)
JSON, 415 мб (Один json-объект на 1 строку, разделитель LF ("\n") )
Данные представляют собой некую выборку за ~6 часов одного дня.

2. Для интересующихся и желающих попробовать свои силы и возможности — попробуйте «повторить» простейшие эвристики, закладываемые в классические SMA-системы. Чем больше эвристик вы придумаете (подсмотрите) и сможете реализовать, тем выше ваш класс в DS. В обязательном порядке найдите критерий выборки данного 1 млн сообщений. Напомню, что по статистике дневной набор русскоязычного потока ~100 млн, значит за несколько часов должно было бы быть 10-15 млн, а в выборке — только 1 млн. Что могло быть критерием выборки? Небольшая подсказка — обычно простые выборки делаются по словам («ключевикам»).

3. На Хабре периодически появляются посты по анализу неструктурированных данных, вполне возможно, что кто-то из фанатов-профи согласится участвовать в нашем новом R&D-спиноффе на постоянной основе (годовой контракт, $30-50тыс). Не имеет значение пол, возраст, образование, место проживания, значение имеет только результат, который нужно реализовать на данном наборе данных, и желание творить и создавать НОВЫЕ эвристики.

Каким результатом может похвастаться профи:

— Стандартные статистики SMA — данных полей в мета-данных вполне хватает для понимания.
— Расширение новыми мета-данными, за счет сбора дополнительных данных по авторам набора из соцсетей, например: женат/холост, учится/работает, дети/родители.
— «Интеллектуальные» мета-данные — очень сильный плюс. Например: динамика тональности высказываний, или кластеризация интересов.
— И, конечно, НОВЫЕ эвристики, которые только придут в голову.

Если будет получаться что-то интересное — присылайте на sz@palitrumlab.ru.
Код присылать не надо! Только таблички или картинки с результатами.

P.S. К существующей Платформе данных SDS и лингвистической платформе EurekaEngine мы сейчас ведем разработку Платформы мета-данных. Надеемся, что к концу года мы сможем обеспечить доступ ко всем Платформам для разработчиков разных уровней, а также групп и команд, в целях создания сторонних новых решений и систем, для работы которых необходимо получать открытые данные из соцмедиа и публичные наборы данных.

UPD: не прошло и часа, как пришли первые «картинки» с эвристиками «А что за выборка»:



UPD2: Dropbox закрыл доступ после пары тысяч скачиваний, CSV и JSON доступен на Я.Диске, Заодно выложена версия JSON с одним объектом на строку.
Поделиться с друзьями
-->

Комментарии (18)


  1. MaxAkaAltmer
    20.06.2016 21:13
    +4

    Вы бы данные выложили, на собственный сервер, а не на DropBox, который требует регистрацию. Не солидно.
    Похоже у вас не хватает собственной фантазии для эвристик и вам нужны идеи, может лучше провести конкурс с призами? Чем обещать трудоустройство, которое лично меня не впечатляет нижней планкой.


    1. OzzyTech
      20.06.2016 21:24

      1. DropBox позволяет скачать без регистрации. Ссылки на отказ от регистрации и перехода к процессу скачивания находятся внизу страниц.

      2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.

      3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.


      1. MaxAkaAltmer
        20.06.2016 21:38

        Ответил чуть ниже, увы исправить уже не могу.


  1. OzzyTech
    20.06.2016 21:22

    Ответил не в ветку. Исправил


    1. MaxAkaAltmer
      20.06.2016 21:34
      +1

      1. Поверьте таких как я будет много. Можете из-за банальной вещи — упустить кого-то стоящего. Но дело хозяйское, лично я использую свой сервер для подачи материалов, чтобы не было лишних проблем.

      2. И какова мотивация сторонних команд?

      3. Я скептик. Верхняя — средний уровень аутсорсера для США. Хорошая вполне, во ее бы и сделал нижней — мотивированных людей значительно прибавится, тем более, говорите, что и больше можно.


      1. OzzyTech
        20.06.2016 21:48

        2. Заработать. PaaS — отичная схема множества стартапов и компаний для реализаций потребностей клиентов в Slack, Bitrix24, Google Adwords и множества других.
        Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.

        P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
        — Динамика распространения гриппа (аналог Google Flu) по городам России.
        — Кто еще пойдет на мероприятие?
        — Где родились и где живут сейчас – карта и волны миграции
        — Автоклассификация интересов аккаунта.
        — Родительский контроль за семейными аккаунтами, упоминаний ребенка
        — Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
        — Кластеризация и персонализация инфопотоков
        — Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
        — Нахождение «друзей по интересам», а не знакомых.
        — Сообщения и фотки людей, находящихся рядом.


        1. MaxAkaAltmer
          20.06.2016 22:15

          Спасибо за развернутый ответ.
          Почему-то вспомнил мультик про козленка, который всех посчитал.


          1. OzzyTech
            20.06.2016 22:22

            Один из самых прекрасных мульт-персонажей. Столько желающих «вломить» этому козленку было ;)
            Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.


  1. kretuk
    20.06.2016 23:13
    -6

    Можно много всего красивого понаписать, покрасоваться, а потом узнать, что у вас эта ваша платформа сделано на пхп. и все как-то сразу плавно превращается в цирк…


    1. OzzyTech
      20.06.2016 23:18
      +2

      P.S. Не очень понял насчет PHP — что в нем такого плохого? Разные части Платформ написаны на разных языках и средствах: и PHP, и C/С++, и Java, кое где и ассемблер встречается.

      По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.

      Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…


  1. kretuk
    21.06.2016 08:33
    -3

    что же тут не понятного? делать сервисы на пхп — это не серьезно. это говорит о том, что нанять хороших специалистов вы не можете. поэтому разговоры по «нижняя планка 30K $ в год» и есть цирк.


  1. paranoik2
    21.06.2016 12:53

    проблема со скачиванием

    Error (429)
    This account's links are generating too much traffic and have been temporarily disabled!


    1. OzzyTech
      21.06.2016 12:55

      Dropbox (бесплатный) выдал два письма-прежупреждения (слишком много загрузок) и закрыл доступ. Сейчас коллеги закачают на другой хостинг, ссылки поменяем.


      1. OzzyTech
        21.06.2016 13:25

        CSV — доступен на Я.Диске. JSON заодно решили оптимизировать (из стандартного отчета SMA, который не особо оптимизирован для таких объемов) по весу


        1. paranoik2
          21.06.2016 14:01

          За оптимизированный JSON отдельное спасибо )


      1. imageman
        22.06.2016 12:21

        Подобные большие файлы лучше раздавать через торрентовские магнит-ссылки.


  1. maxood
    21.06.2016 23:02
    +1

    В вашей таблице есть уникальный ключ? Как вы собираетесь проверять результат исследований?
    В JSON-файле 1 013 063 записей, при этом уникальных idExternal — 1 011 071.
    Например — cat ./messages.json | grep \«idExternal\»:\«5-41:\» | wc -l
    1205

    Уникальных url еще меньше — 977462.

    Поясните, как вы будете сопоставлять «эвристики» с исходными данными и, вообще, что вы подразумеваете под термином «эвристика»?


    1. OzzyTech
      22.06.2016 11:13

      Никакого уникального ключа нет. Это обычный последовательный по времени поток данных соцмедиа с фильтром по слову «я» (с включенной морфологией). Механистический подход «взвесить в граммах» — никому не интересен.
      Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0

      Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:

      и