Авторы: Пойкалайнен А.М., Кочкаров Р.А.
Телеграм‑канал «Факультетская наука»: https://t.me/Digitarisimus
Введение
Графовые нейронные сети (GNN) стали важным инструментом для анализа структурированных данных в таких областях, как рекомендательные системы, биоинформатика и обнаружение аномалий. Традиционные GNN предполагают гомофилию, что означает, что связанные узлы имеют схожие характеристики и метки. Однако это ограничивает их применение в условиях гетерофилии, где связанные узлы различны (рис.1). Мы анализируем метод AMUD‑ADPA [1], который позволяет повысить производительность GNN в условиях гомофилии и гетерофилии, используя данные о действиях пользователей на платформе массовых открытых онлайн‑курсов (MOOC) [2].
Модель AMUD-ADPA
Метод AMUD‑ADPA состоит из двух компонентов:
Адаптивное моделирование неориентированных и ориентированных графов (AMUD)
Адаптивное агрегирование ориентированных графов (ADPA)
AMUD фокусируется на количественной оценке взаимосвязи между узлами и топологией графа, что позволяет адаптивно решать, рассматривать ли ребра как ориентированные или неориентированные.
Адаптивное моделирование неориентированных и ориентированных графов (AMUD) (рис.2)
AMUD представляет собой метод, который анализирует топологию графа и адаптивно решает, какие связи между узлами следует рассматривать как ориентированные, а какие — как неориентированные. Этот подход основан на следующих ключевых шагах:
Анализ взаимосвязей: оценивается структура графа и характеристики узлов для определения типа связей (гомофильные или гетерофильные).
Адаптивное решение: В зависимости от выявленных характеристик, связи между узлами могут быть адаптированы к их типу, что улучшает точность моделей при классификации узлов.
Адаптивное агрегирование ориентированных графов (ADPA) (рис.3)
ADPA использует иерархические механизмы внимания для агрегирования информации из графа, адаптируясь к его структуре и характеру ребер. Основные шаги процесса ADPA включают:
Механизмы внимания: ADPA применяет механизмы внимания для определения важности различных ребер и узлов в графе, что позволяет более точно учитывать особенности каждого узла.
Иерархическое агрегирование: информация агрегируется на различных уровнях иерархии, что обеспечивает более глубокое понимание структуры графа и улучшает качество классификации.
Фреймворк AMUD‑ADPA особенно полезен в таких приложениях, как:
Рекомендательные системы: Повышение точности рекомендаций за счет учета сложных взаимодействий между пользователем и элементом.
Обнаружение аномалий: Выявление необычных закономерностей в динамических сетях, напри‑мер, обнаружение мошенничества в финансовых операциях.
Анализ социальных сетей: Понимание структуры и динамики социальных взаимодействий, особенно в сетях с разнообразным поведением пользователей.
Экспериментальная установка и результаты
Для оценки метода AMUD‑ADPA использовались данные MOOC user action, представляющие действия пользователей на платформе онлайн‑курсов. Узлы представляют пользователей и мероприятия курса (цели), а ребра — действия пользователей над целями. Действия имеют атрибуты и временные метки. Каждое действие имеет бинарную метку, указывающую, покинул ли пользователь курс после этого действия. Характеристики узлов включают показатели вовлеченности пользователей и характеристики курсовой деятельности.
Были проведены эксперименты с полунаблюдаемыми задачами классификации узлов, сравнивались базовые модели GNN:
Результаты показали, что AMUD‑ADPA превосходит традиционные модели по точности, precision, recall и F1-score (табл.1, рис.4)).
Модель |
Accuracy, % |
Precision, % |
Recall, % |
F1-score, % |
GCN |
81.89 |
80.3 |
80.01 |
80.15 |
GAT |
83.98 |
83.56 |
83.1 |
83.33 |
GraphSAGE |
82.15 |
81.91 |
81.2 |
81.55 |
AMUD-ADPA |
86.35 |
85.98 |
84.4 |
85.18 |
Табл.1 Основные показатели оценки моделей
Заключение
Метод AMUD‑ADPA, разработанный для улучшения производительности графовых нейронных сетей в условиях гомофилии и гетерофилии, показал свою эффективность на наборе данных MOOC, превзойдя показатели базовых моделей GNN в среднем на 3,6%. Применение метода AMUD‑ADPA может привести к созданию более точных и адаптивных моделей для обработки сложных графовых структур. Этот метод открывает новые возможности для анализа данных в таких областях, как рекомендательные системы, где традиционные методы часто оказываются недостаточными. В будущем планируется разработка рекомендательной системы для студентов, за основу будет взят проанализированный метод AMUD‑ADPA, обученный на новом датасете о взаимодействиях пользователей с платформой онлайн образования, который имеет более сложную структуру, чем датасет MOOC.
Список литературы
1. Sun, H., Li, X., Wu, Z., Su, D., Li, R.-H., & Wang, G. (2024). Breaking the Entanglement of Homophily and Heterophily in Semi-supervised Node Classification. arXiv preprint arXiv:2312.04111. DOI: https://doi.org/10.48550/arXiv.2312.04111
2. URL: https://snap.stanford.edu/data/act-mooc.html . (дата обращения: 04.06.2024)
3. Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. arXiv preprint arXiv:1609.02907. DOI: https://doi.org/10.48550/arXiv.1609.02907
4. Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2018). Graph Attention Networks. arXiv preprint arXiv:1710.10903. DOI: https://doi.org/10.48550/arXiv.1710.10903
5. Hamilton, W., Ying, R., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs. Advances in Neural Information Processing Systems. DOI: https://doi.org/10.48550/arXiv.1706.02216