Ранее мы рассказали о первой части исследования, которое провели магистры, аспиранты и сотрудники Института дизайна и урбанистики ИТМО. Они проанализировали несколько миллионов публикаций из популярной в России соцсети — Instagram — за 2018, 2019 и 2020-й и определили, о каких городских объектах пишут чаще всего, и какие из них наиболее популярны среди аудитории.
Сегодня продолжим рассказ и обсудим результаты второй части работы. Они говорят о том, какие тематики можно выделить и как они распределены по территории, плюс — показывают, к каким тематикам относятся популярные объекты.
Для визуализации «народных» объектов их координаты получили путем сопоставления по названию с геолоцированными объектами Санкт-Петербурга. Последние содержатся в Платформе городских данных, разрабатываемой и поддерживаемой ИДУ ИТМО. Результаты представили в виде слоя городских объектов — так выглядит их распределение на карте Санкт-Петербурга:
Распределение в центре города выглядит следующим образом:
Для каждого объекта в сервисе можно посмотреть карточку с названием, фотографией и количеством упоминаний в исходном массиве постов.
Как определяли тематики
Эту задачу решали параллельно с выделением объектов. В качестве основного подхода выбрали NLP-метод тематического моделирования (topic modeling), позволяющий определить тематики коллекции документов в виде массивов слов, характеризующих каждую тематику, а также отдельно для каждого текста выявить степень его принадлежности тем или иным тематикам. По сути этот метод относится к задаче кластеризации документов. В силу существенного объема данных этот процесс провели по ячейкам территории с объединением результатов.
Предобработанные 2,2 млн публикаций потребовали дополнительных манипуляций, чтобы представить каждую из них в виде массива значимых слов в начальной форме. Она включала удаление незначимых стоп-слов (по словарю стоп-слов библиотеки nltk для русского языка, а также по дополнительно вручную собранному словарю), слов короче трех символов и лемматизацию оставшегося корпуса слов.
На обработанных массивах постов для каждой ячейки территории провели тематическое моделирование при помощи библиотеки BigARTM с автоматическим определением наилучшего количества тематик на основании coherence score. В итоге получили около 10500 тематик, характеризующихся тридцатью ключевыми словами. Примеры наиболее популярных тематик и их топ ключевых слов, полученный методом тематического моделирования, можно увидеть в следующей таблице:
Тема |
Ключевые слова |
1 |
крепость санкпетербург петропавловский россия город нева остров путешествие прогулка путешествовать заячий призывать лето заяц собор зима жить место весна зайчик |
2 |
город дворцовый санкпетербург любить россия площадь дворец эрмитаж призывать жить прогулка путешествовать лето зимний зима нева ночь подобно весна любимый |
3 |
любить город искусство изобразительный россия мир призывать книга большой фотография подобно испанский дом читать сан путешествовать улица европа изучать делать |
4 |
город любить санкпетербург россия санкт собор казанский невский путешествовать путешествие дом призывать архитектура место зингер проспект жить лето любимый фотография |
5 |
искусство современный изобразительный эрарт художник музей картина мир выставка дать ресторан работа десерт призывать подобно место произведение эклер делать мысль |
6 |
город любить место вечер санкпетербург ресторан призывать самый вид жить квартира мансарда новостройка лето девушка собор искусство большой татуировка рождение |
7 |
любить россия город место подобно искусство мир большой счастливый лето путешествовать следить настроение изобразительный призывать путешествие нравиться фотография утро микки |
8 |
остров елагин лето парк прогулка цпкио весна парка выходной гулять природа солнце тюльпан тур фестиваль любимый призывать семья зима отдых |
9 |
город россия искусство санкпетербург любить место музей изобразительный дом путешествовать мир большой самый настроение путешествие знать прогулка подобно следить фильм |
10 |
знать делать любовь праздник утро добрый мир дело счастливый самый большой пасха сделать настроение искусство светлый ждать изобразительный дом милый |
В результате получили тематики, совпадающие с популярными локациями и тематики, отражающие эмоции, в особенности любовь к городу и абстрактное счастье, что не может не радовать. К сожалению, последние не удалось качественно объединить для получения ограниченного количества осмысленных тематик, по которым можно было бы судить об имиджевом окрасе города среди аудитории соцсети.
Тогда ключевые слова 10 500 тематик рассмотрели как «выжимку», краткое представление и своеобразную аннотацию анализируемых постов. Кластеризовали их с учетом семантики, то есть смыслового значения, чтобы в одном кластере оказывались близкие по смыслу слова. Для этого использовали готовые эмбеддинги (числовые вектора) ключевых слов, полученные из модели русского языка, построенной на основе Национального корпуса русского языка. Работу с векторными моделями осуществлялали при помощи библиотеки Gensim.
Получилось так, что модели не были известны многие породы собак (корги, хаски, бигль, йорк), спортивные направления (кроссфит, зумба, пилатес), неологизмы, пришедшие из иностранных языков (квест, косплей, мастеркласс, ролл, селфи, винтаж, кавер) и ненормативная лексика. Таким образом, побочным продуктом стал способ поиска специфической лексики в больших объемах текста, который, возможно, будет применен к практическим задачам в других исследованиях.
Ключевые слова, для которых имелись готовые эмбеддинги, кластеризовали методом KMeans при помощи библиотеки scikit-learn, количество кластеров подбирали и оценивали экспертным путем. Таким образом получили довольно яркие и отличающиеся друг от друга по смыслу кластеры, которые после объединения и разделения экспертом приняли в качестве 60 финальных тематик.
Тема |
Ключевые слова тематики |
Изобразительное искусство |
'зарисовка', 'картина', 'портрет', 'малевич', 'художница', 'холст', 'этюд', 'акварель', 'рисование', 'рисовать', 'пейзаж', 'акварельный', 'эскиз', 'пикассо', 'лепка', 'рисунок', 'набросок', 'палитра', 'ремесло', 'живопись', 'художник', 'художество', 'искусство', 'пастель', 'матисс' 'импрессионист', 'чернила', 'охра', 'глина', 'мастика', 'доска', 'паста', 'гипс', 'штукатурка', 'карандаш', 'пластилин', 'рафаэль', 'иллюстратор', 'ренессанс', 'рубенс' (…) |
Театр |
'кулиса', 'пьеса', 'репетиция', 'спектакль', 'комедия', 'актер', 'декорация', 'сцена', 'театр', 'зритель', 'театрал', 'артист', 'постановка', 'театральный', 'актриса', 'оперетта', 'актерский', 'гастроль', 'режиссер', 'афиша', 'плакат', 'фестиваль', 'выступить', 'бродвей', 'шекспир', 'александринка', 'музкомедия', 'кастинг', 'браво', 'гамлет', 'макбет', 'фауст', 'щелкунчик', 'капустник', 'мариинский', 'бдт', 'александринка', 'александринский' (…) |
Футбол |
'лига', 'футбольный', 'мяч', 'зенит', 'фифа', 'торпедо', 'футболист', 'вратарь', 'форвард', 'спартак', 'тренер', 'футбол', 'поле', 'ворота', 'гол', 'матч', 'игра', 'судья', 'команда', 'счет', 'пенальти', 'очко', 'чемпионат', 'нападающий', 'газон', 'фаворит', 'голкипер', 'защитник', 'штрафной', 'клуб', 'трибуна', 'штанга', 'угловой', 'комментатор', 'травма', 'арена' (…) |
Высшее образование |
'академический', 'профессор', 'студент', 'экзамен', 'учиться', 'выпускник', 'лицей', 'преподаватель', 'лекция', 'кадет', 'студенческий', 'ученый', 'кафедра', 'выпускной', 'академия', 'университет', 'училище', 'институт', 'факультет', 'колледж', 'балл', 'курс', 'стипендия', 'зачет', 'студентка', 'грант', 'сертификат', 'диплом', 'аспирантура', 'консультация', 'учеба', 'публикация', 'академик', 'образование', 'образовательный', 'обучение', 'учебный' (…) |
Природа |
'береза', 'дерево', 'трава', 'куст', 'лесной', 'болото', 'лес', 'садик', 'лужайка', 'оранжерея', 'садовый', 'мост', 'парковый', 'набережная', 'природа', 'парк', 'сад', 'корень', 'плодовый', 'гриб', 'ущелье', 'лесопарк', 'сосновка', 'листопад', 'ботаника', 'флора', 'джунгли', 'питомник', 'зелень', 'растение', 'березовый', 'тополь', 'тополиный', 'хвойный', 'осина', 'осиновый', 'еловый', 'ель', 'елка', 'сосна', 'сосновый', 'дуб', 'дубовый', 'дубок', 'рябина' (…) |
Водоемы и флот |
'подводник', 'ледокол', 'подлодка', 'подводный', 'атлантический', 'купание', 'грот', 'мостик', 'водный', 'ледовый', 'лодка', 'купаться', 'яхта', 'пляж', 'канал', 'бассейн', 'каньон', 'морской', 'водолаз', 'водоем', 'парусный', 'спасатель', 'теплоход', 'океан', 'акватория', 'катер', 'горный', 'проток', 'арктический', 'катамаран', 'каскад', 'канат', 'море', 'речка', 'озеро', 'берег', 'река', 'крейсер', 'корабль', 'судно', 'фрегат', 'флот', 'парус', 'пролив', 'порт' (…) |
Далее решали обратную задачу поиска постов, принадлежащих каждой из тематик. Делали это по содержанию ключевых слов в предварительно обработанных текстах постов. При этом чем больше было разнообразие ключевых слов в тексте, тем выше был индекс соответствия. Окончательное решение о принадлежности тематике определяли по подобранному экспертами пороговому индексу. В итоге сформировали массивы постов по каждой тематике и смогли перейти к определению окраски городских локаций, выраженных ячейками территории.
Результаты визуализировали. При выборе тематики на карте подсвечиваются ячейки, содержащие посты, отнесенные к тематике. Чем больше количество постов в ячейке, тем интенсивнее ее окраска. Например, для тематики «Изобразительное искусство» участок Васильевского острова выглядит так:
Можно видеть, что наиболее интенсивно окрашены ячейки рядом с Академией Художеств, пространством Артмуза и музеем Эрарта, которые действительно относятся к тематике изобразительного искусства.
Другой пример — для тематики «Природа». На выбранном участке интенсивно окрашенные ячейки расположены в районе Елагина острова и Приморского парка Победы. Они действительно являются зелеными зонами.
Не для всех тематик полученные карты были одинаково ожидаемы и очевидны, но в целом результаты позволяют говорить о применимости выбранных методов для решения задачи тематического моделирования территории на данных социальных сетей и дают богатую базу для исследований и интерпретаций.
Как сопоставляли объекты и тематики
На последнем этапе исследования для городских объектов, выделенных из исходных постов, определяли соответствие полученным выше тематикам. Городской объект считали принадлежащим тем тематикам, в постах которых наиболее часто встречалось его название. Каждый объект отнесли максимум к трем тематикам. Примеры для десяти популярных объектов можно увидеть в таблице:
Городской объект |
Тематики, к которым он относится |
Эрмитаж |
Музеи и выставки, Квинтэссенция Петербурга, Изобразительное искусство |
Исаакиевский собор |
Христианство, Квинтэссенция Петербурга, Архитектура и скульптура |
Петропавловская крепость |
Архитектура и скульптура, Квинтэссенция Петербурга, Водоемы и флот |
Новая Голландия |
Зима, Квинтэссенция Петербурга, Природа |
Русский музей |
Музеи и выставки, Квинтэссенция Петербурга, Изобразительное искусство |
Эрарта |
Музеи и выставки, Изобразительное искусство, Квинтэссенция Петербурга |
Мариинский театр |
Театр, Танец, Квинтэссенция Петербурга |
Ботанический сад |
Природа, Цветы, Музеи и выставки |
Крейсер Аврора |
Водоемы и флот, Армия, Квинтэссенция Петербурга |
Казанский собор |
Христианство, Квинтэссенция Петербурга, Архитектура и скульптура |
Результаты сопоставления городских объектов и тематик вполне соответствуют их сути и, как говорится, «похожи на правду». Это является косвенным подтверждением качества полученных результатов и применимости выбранных подходов. Каждую тематику можно визуализировать как совокупность соответствующих тематике ячеек с разной интенсивностью окраски и городских объектов, отнесенных тематике. Например, так выглядит в центре города тематика «Театр»:
А так выглядит тематика «Еда»:
Для тематики «Литература» список соотнесенных объектов выглядит так:
Тематические прогулочные маршруты
Полученные результаты попытались применить в практических целях — строить тематические прогулочные маршруты по темам и продолжительности прогулки в минутах. В итоге помимо самих маршрутов смогли предоставить официальные достопримечательности, встречающиеся на пути.
Что в итоге
С помощью набора NLP-методов и языковых моделей неструктурированные и зашумленные данные соцсети переработали в стройную картину города, из которой можно получить информацию о популярных объектах и тематической окраске локаций. Кстати, наибольшее количество постов в одной ячейке было сделано по теме «Христианство». Эта ячейка находится рядом с Исаакиевским собором. На втором месте — тематика «Изобразительное искусство», а ячейка находится рядом с Эрмитажем. Больше всего постов по тематике «Красный» было сделано в ячейке рядом с Красным мостом, а по тематике «Синий» — рядом с Океанариумом.
В Санкт-Петербурге тематики «Музеи и выставки», «Изобразительное искусство» и «Театр» намного популярнее тематик «Алкоголь» и «Преступность». Более предметные и глубокие наблюдения на основании результатов будут представлены в дальнейших работах магистрантов и аспирантов ИДУ ИТМО.
Больше исследований и проектов в нашем блоге на Хабре:
Как устроен открытый инструмент для анализа метагеномных данных
Что там в Университете ИТМО: новые разработки и проекты ученых
Комментарии (4)
Serindgan
06.09.2021 11:15+2Спасибо за статью. В статье нехватает ответа на вопрос зачем такое исследование нужно, постановки гипотезы, и как исследование дальше использовать. Ведь делать исследование просто ради исследования - звучит странно.
Moskus
07.09.2021 03:22Более того, в некоторых ВУЗах за отсутствие именно этих составляющих научной работы, эта работа будет абсолютно справедливо отправлена ответственным за научную деятельность сотрудником кафедры в мусор или, что скорее, на полное переписывание.
А так - да, это классика жанра: спарсить или тупо скачать какие-нибудь данные из сети, а потом забабахать картографическую визуализацию для пущего впечатления (потому что большинство тех, кто с этой совершенно проходной задачей не сталкивался, считают это реальной задачей, достойной отдельного решения, чем она точно не является в современной ситуации).
Тут вот недавно в одной статье сотрудница Озона тоже выдавала картографическую визуализацию за аналитический метод. Также, аналогичный сценарий - любимый подход участников хакатонов по открытым данным.
Rating-100
Да уж, пипец работа, достойная аспирантов ИТМО.
Я, кстати, сам с ИТМО, но не с
ЛГБТ-кафедры, а с ТПС. Однажды на GeekPiknic подошёл к стойке ИТМО, спросить, как сейчас в ИТМО делают нейронные сети (стойка была про нейронные сети).Ответ, считаю, надо высечь в скрижалях:
JediPhilosopher
Ну это вообще очень жизненно, хех. Большинство дата-сайнтистов в мире так и работает по ощущениям. И мемасов в интернетах на эту тему навалом