Авторы: Пойкалайнен А.М., Кочкаров Р.А.

Телеграм‑канал «Факультетская наука»: https://t.me/Digitarisimus

Введение

Графовые нейронные сети (GNN) стали важным инструментом для анализа структурированных данных в таких областях, как рекомендательные системы, биоинформатика и обнаружение аномалий. Традиционные GNN предполагают гомофилию, что означает, что связанные узлы имеют схожие характеристики и метки. Однако это ограничивает их применение в условиях гетерофилии, где связанные узлы различны (рис.1). Мы анализируем метод AMUD‑ADPA [1], который позволяет повысить производительность GNN в условиях гомофилии и гетерофилии, используя данные о действиях пользователей на платформе массовых открытых онлайн‑курсов (MOOC) [2].

рис.1 Гетерофилия и гомофилия
рис.1 Гетерофилия и гомофилия

Модель AMUD-ADPA

Метод AMUD‑ADPA состоит из двух компонентов:

  1. Адаптивное моделирование неориентированных и ориентированных графов (AMUD)

  2. Адаптивное агрегирование ориентированных графов (ADPA)

AMUD фокусируется на количественной оценке взаимосвязи между узлами и топологией графа, что позволяет адаптивно решать, рассматривать ли ребра как ориентированные или неориентированные.

Адаптивное моделирование неориентированных и ориентированных графов (AMUD) (рис.2)

AMUD представляет собой метод, который анализирует топологию графа и адаптивно решает, какие связи между узлами следует рассматривать как ориентированные, а какие — как неориентированные. Этот подход основан на следующих ключевых шагах:

  • Анализ взаимосвязей: оценивается структура графа и характеристики узлов для определения типа связей (гомофильные или гетерофильные).

  • Адаптивное решение: В зависимости от выявленных характеристик, связи между узлами могут быть адаптированы к их типу, что улучшает точность моделей при классификации узлов.

Рис.2 Процесс AMUD
Рис.2 Процесс AMUD

Адаптивное агрегирование ориентированных графов (ADPA) (рис.3)

ADPA использует иерархические механизмы внимания для агрегирования информации из графа, адаптируясь к его структуре и характеру ребер. Основные шаги процесса ADPA включают:

  • Механизмы внимания: ADPA применяет механизмы внимания для определения важности различных ребер и узлов в графе, что позволяет более точно учитывать особенности каждого узла.

  • Иерархическое агрегирование: информация агрегируется на различных уровнях иерархии, что обеспечивает более глубокое понимание структуры графа и улучшает качество классификации.

Рис.3 Процесс ADPA
Рис.3 Процесс ADPA

Фреймворк AMUD‑ADPA особенно полезен в таких приложениях, как:

  • Рекомендательные системы: Повышение точности рекомендаций за счет учета сложных взаимодействий между пользователем и элементом.

  • Обнаружение аномалий: Выявление необычных закономерностей в динамических сетях, напри‑мер, обнаружение мошенничества в финансовых операциях.

  • Анализ социальных сетей: Понимание структуры и динамики социальных взаимодействий, особенно в сетях с разнообразным поведением пользователей.

Экспериментальная установка и результаты

Для оценки метода AMUD‑ADPA использовались данные MOOC user action, представляющие действия пользователей на платформе онлайн‑курсов. Узлы представляют пользователей и мероприятия курса (цели), а ребра — действия пользователей над целями. Действия имеют атрибуты и временные метки. Каждое действие имеет бинарную метку, указывающую, покинул ли пользователь курс после этого действия. Характеристики узлов включают показатели вовлеченности пользователей и характеристики курсовой деятельности.

Были проведены эксперименты с полунаблюдаемыми задачами классификации узлов, сравнивались базовые модели GNN:

  • GCN (Graph Convolutional Network) [3]

  • GAT (Graph Attention Network) [4]

  • GraphSAGE [5]

Результаты показали, что AMUD‑ADPA превосходит традиционные модели по точности, precision, recall и F1-score (табл.1, рис.4)).

Модель

Accuracy, %

Precision, %

Recall, %

F1-score, %

GCN      

81.89

80.3

80.01

80.15

GAT      

83.98

83.56

83.1

83.33

GraphSAGE

82.15

81.91

81.2

81.55

AMUD-ADPA 

86.35

85.98

84.4

85.18

Табл.1 Основные показатели оценки моделей

Рис.4 а) Сравнение моделей                   б) Исследование абляции                        в) Масштабируемость
Рис.4 а) Сравнение моделей                   б) Исследование абляции                        в) Масштабируемость

Заключение

Метод AMUD‑ADPA, разработанный для улучшения производительности графовых нейронных сетей в условиях гомофилии и гетерофилии, показал свою эффективность на наборе данных MOOC, превзойдя показатели базовых моделей GNN в среднем на 3,6%. Применение метода AMUD‑ADPA может привести к созданию более точных и адаптивных моделей для обработки сложных графовых структур. Этот метод открывает новые возможности для анализа данных в таких областях, как рекомендательные системы, где традиционные методы часто оказываются недостаточными. В будущем планируется разработка рекомендательной системы для студентов, за основу будет взят проанализированный метод AMUD‑ADPA, обученный на новом датасете о взаимодействиях пользователей с платформой онлайн образования, который имеет более сложную структуру, чем датасет MOOC.

Список литературы

1.        Sun, H., Li, X., Wu, Z., Su, D., Li, R.-H., & Wang, G. (2024). Breaking the Entanglement of Homophily and Heterophily in Semi-supervised Node Classification. arXiv preprint arXiv:2312.04111. DOI: https://doi.org/10.48550/arXiv.2312.04111

2.        URL: https://snap.stanford.edu/data/act-mooc.html . (дата обращения: 04.06.2024)

3.        Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. arXiv preprint arXiv:1609.02907. DOI: https://doi.org/10.48550/arXiv.1609.02907

4.        Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2018). Graph Attention Networks. arXiv preprint arXiv:1710.10903. DOI: https://doi.org/10.48550/arXiv.1710.10903

5.        Hamilton, W., Ying, R., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs. Advances in Neural Information Processing Systems. DOI: https://doi.org/10.48550/arXiv.1706.02216

Комментарии (0)