Сегодня мы решили подготовить для вас краткую новостную заметку о новых проектах ученых и программистов Университета ИТМО. Остановимся на social media mining’е и задачах, связанных с определением географических предпочтений пользователей популярных социальных сетей.

Фотография Franklin Heijnen CC-BY

Найти лучшие места для туристов с помощью Instagram


Задача: выявить локации (музеи, рестораны, кафе, достопримечательности и места для отдыха), которые интересуют главным образом местных жителей. С помощью полученных результатов расширить перечень наиболее востребованных и привлекательных мест в городе и разнообразить туристические путеводители.

Для решения задачи с помощью social media mining’а была выбрана социальная сеть Instagram. Команда проекта, состоящая из сотрудников Института наукоемких компьютерных технологий (НИИ НКТ), объясняет свой выбор достаточно активной пользовательской базой этой социальной сети и прозрачными поведенческими паттернами, которые позволяют уточнить результаты проводимого анализа.

Один из первых шагов на пути к анализу данных заключался в составлении профиля туриста и отсеве соответствующих пользователей. Среди основных признаков “туристического” поведения были выделены: кучность Instagram-публикаций из центральной части города (например, в Санкт-Петербурге туристы главным образом публикуют фотографии мест, находящихся на Невском проспекте) и ограниченное временное “окно” присутствия в городе (согласно официальной туристической статистике, продолжительность пребывания в городе гостей обычно не превышает пары недель).

Поставленная задача состояла в поиске в поиске мест, о которых туристы практически не знают. Поэтому для того, чтобы получить “инсайдерскую” информацию, было решено отбросить наиболее известные туристам локаций. Их популярность и посещаемость таких мест как Казанский собор, Эрмитаж и аэропорт Пулково не вызывают сомнения, поэтому эти и другие востребованные туристами места были заведомо исключены из проведенного исследования.

Стоит отметить, что результаты анализа (Yandex-карта популярных мест Санкт-Петербурга по категориям) были представлены на профильной конференции и вышли в виде научного материала в журнале Procedia Computer Science.


Предсказать географические предпочтения пользователей с помощью Twitter, Instagram и Foursquare


Задача: рекомендовать пользователям локации с помощью перекрестного анализа информации сразу из трех социальных сетей.

Для реализации задачи группа ученых выбрала модель обучения с учителем. Здесь потребовалось учитывать не только геотеги, отражающие определенные места, рекомендованные пользователями Foursquare, но и текстовые данные (Twitter) плюс визуальные предпочтения на основе публикаций в Instagram.

В ходе работы была реализована возможность уточнения рекомендаций за счет использования поведенческой информации от наиболее похожих друг на друга пользователей. Профилирование было проведено с помощью кластеризации на многослойном графе, который включал в себя данные из трех социальных сетей.

Если говорить простыми словами, то такая система может порекомендовать пользователю наиболее подходящие спортивные заведения, если он сам интересуется спортом и публикует соответствующие твиты или публикации в Instagram.

Работа была проведена учеными Университета ИТМО вместе с коллегами из Сингапура. Для этого был собран соответсвующий датасет для жителей Нью-Йорка, Сингапура и Лондона, а результаты исследования были представлены на конференции International ACM SIGIR Conference on Research and Development in Information Retrieval и отражены в статье «Cross-Domain Recommendation via Clustering on Multi-Layer Graphs».

Другие материалы из нашего блога на Хабре:


Комментарии (1)


  1. nckma
    01.09.2017 08:23

    Расскажите пожалуйста, как студенту присоединиться к каким-то исследованиям.
    Я понимаю, что вопрос наивный, но тем не менее. Куда идти и с кем разговаривать?