Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), продолжаем рассказывать о насущных проблемах ML-разработки, делимся подходами к их решению и рассуждаем на актуальные темы.
Автор статьи: Андрей Шелюх, руководитель проектов направления «ДатаЛаб».
С растущим разнообразием товаров и услуг все больше потребителей обращаются к онлайн-отзывам и рейтингам, чтобы принять решение о покупке. При этом растет и риск столкнуться с фродом отзывов и искусственным накручиванием рейтингов, что может серьезно исказить представление потребителей о продуктах и услугах. За красочными обещаниями и блестящими оценками могут скрываться поддельные отзывы, созданные для манипуляции восприятием потребителей. Все это является серьезным вызовом для потребителей, бизнеса и доверия к онлайн-платформам.
В последние годы технологии машинного обучения (ML) стали широко использоваться для выявления фрода в отзывах и рейтингах, благодаря своей способности анализировать большие объемы данных и выявлять неестественные паттерны. В данной статье мы рассмотрим технические методы применения ML для борьбы с фродом в рейтингах и отзывах товаров в ритейле.
Применение технологий машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле представляет собой эффективный подход, который позволяет выявлять неестественные паттерны и аномалии в данных. Системы ML могут быть использованы для обучения моделей выявления фрода, а также для анализа текстовых отзывов с использованием алгоритмов обработки естественного языка.
Сбор и подготовка данных
Прежде чем приступить к применению ML, необходимо собрать и подготовить данные. Это могут быть текстовые отзывы и оценки, выставленные товару после покупки, история покупок, данные о покупателе, полученные при регистрации бонусной карты. Важно проверить есть ли другие покупатели, использующие этот же телефон, а также провалидировать почтовый адрес. Также можно посмотреть на агрегированные данные по поставщикам товаров. После сбора данных очищаем их от дубликатов, выбросов и других аномалий, чтобы обеспечить качественное обучение моделей ML.
Выявление аномалий и неестественных паттернов
С помощью моделей машинного обучения мы можем выявить аномалии и неестественные паттерны в данных, которые могут указывать на фрод. Например, алгоритмы кластеризации помогут выявлять группы пользователей или отзывов, которые сильно отличаются от общей массы поведения. Алгоритмы обнаружения аномалий помогут выявить отзывы или оценки, которые сильно выбиваются из общего распределения.
Для выявления аномалий в данных можно использовать разные методы, такие как метод k-ближайших соседей (k-NN), Isolation Forest, а также модели глубокого обучения, такие как автоэнкодеры (автокодировщики), свёрточные нейронные сети и другие. Для более точного определения фродовых покупателей все эти методы можно использовать в ансамбле. Разные модели отмечают разные отзывы в качестве аномальных или подозрительных, что уменьшает вероятность ошибки, когда все эти методы сходятся во мнении насчёт какого-то из отзывов.
Обучение моделей для выявления фрода
Выявление фрода в рейтингах и отзывах можно производить различными моделями ML, такими как классификация, кластеризация, обнаружение аномалий и т.д. Например, модели классификации могут помочь определить, является ли отзыв подлинным или фальшивым, основываясь на текстовых признаках. Модели кластеризации могут помочь выявить группы пользователей с необычным поведением. Для обучения моделей сгенерированные из данных признаки подаются в нормализованном виде. Также можно вместо нормализации формировать эмбеддинги данных. Для данных упорядоченных по времени можно использовать модель Pytorch Lifestream, которая позволит получить представление изменяющихся во времени рейтингов для пар товар-поставщик или для оценок и отзывов индивидуальных пользователей.
Одним из способов для определения аномалий в данных является автоэнкодер. Объекты, которые более всего выбиваются из общего распределения, после реконструкции автоэнкодером дадут наибольшую ошибку в сравнении с оригиналом. С помощью модели Pytorch Lifestream мы сформировали эмбеддинги и на полученном представлении данных применили различные методы для выявления фрода (для иллюстрации эмбеддинги были сжаты до размерности 2). Предлагаем посмотреть как сработал метод K-means и метод Isolation Forest.
Как видите, модели при оценке фрода «обращают внимание» на разные факторы, поэтому для повышения точности имеет смысл использовать методы в ансамбле.
Другой метод, которым мы воспользовались, — оценка ошибки реконструкции автоэнкодера.
Все эти методы в комбинации с другими сопутствующими факторами помогают принять финальное решение о том, является ли конкретный отзыв фродовым или нет.
Использование алгоритмов обработки естественного языка (NLP)
Для анализа текстовых отзывов можно применять алгоритмы NLP, которые позволяют извлекать смысловую информацию из текста. Это позволит выявить фальшивые отзывы, использующие одни и те же фразы или шаблоны. Подробнее рассмотрим это в отдельной статье.
Обновление моделей и системы
ML-модели должны постоянно обновляться и улучшаться, чтобы адаптироваться к новым видам фрода. Это может быть осуществлено с помощью постоянного мониторинга результатов моделей и внедрения новых данных для обучения.
Антифрод в компании
Система антифрода играет важную роль в защите компании от недобросовестных действий покупателей и повышении доверия как со стороны клиентов, так и поставщиков. Ее внедрение может принести значительные экономические выгоды, помогая компании экономить сотни миллионов в год. При этом важно помнить, что цена доверия к бренду может оказаться намного выше. Для выявления фрода не всегда нужны сложные инструменты. Часто достаточно иметь актуальные данные и понимание, что именно необходимо найти, поэтому хорошая система поддержки data-инженеров — ключевой фактор при разработке системы антифрода.
Одним из сложных моментов может стать хранение исторических личных данных и обеспечение их безопасности. При запросе пользователя об удалении информации о нем, компания обязана выполнить это требование. В связи с тем, что важно сохранять как можно больше информации для дальнейшего использования в анализе, следует использовать методы защиты, такие как хеширование личных данных пользователей.
В нашей системе антифрода используются различные наборы признаков для выявления разных видов мошенничества, таких как манипуляции с рейтингами, возвраты товаров, чрезмерное использование бонусов и другие. Эти признаки могут появляться как однократно, так и несколько раз в течение дня. Важно отметить, что срабатывание одного признака не всегда означает выявление фрода. Иногда эффективнее наблюдать за действиями пользователя и анализировать совокупность сработавших признаков или частоту их срабатывания. Поэтому каждому признаку присваивается определенный вес, и устанавливается порог аккумулированного веса, при достижении которого ситуация считается подозрительной и переходит в статус фродовой.
Признаки фрода необходимо постоянно адаптировать и дорабатывать под новые условия. Некоторые из них могут перестать работать из-за прекращения использования мошеннических схем, в то время как другие могут требовать постоянного внимания и доработки. Гибкость и постоянная адаптация системы антифрода являются ключевыми факторами ее эффективности и успешной борьбы с мошенничеством.
Комментарии (5)
Ukrainskiy
22.05.2024 18:10+4Для кого написана статья? Для покупателя, ритейлера или читателя Хабра? Кажется, что ни для одного из них. Набор общих фраз на тему. Если технические детали раскрывать не хочется, раскройте хотя бы кейс поподробнее: что было вначале, как решали, к чему привело. Стал ли покупатель или продавец более счастлив? Сколько реальных людей было посчитано за фрод? Борьба с накруткой отзывов и рейтингов может быть решена довольно легко — давать возможность оценки только покупателю, который купил товар.
atrost
22.05.2024 18:10давать возможность оценки только покупателю, который купил товар
Так тоже не работает, иногда товар специально покупают конкуренты, чтобы от лица приобретателя обоср@ть продукт, а потом его можно и вернуть (такой закон есть).
randomsimplenumber
22.05.2024 18:10+2Так тоже не работает, иногда товар специально покупают конкуренты
После покупки может даже в печке сжечь. Но есть нюанс - цена массовой атаки станет запредельной. Армию ботов за 10 коп не натравишь.
потом его можно и вернуть
На время обработки возврата - а он будет выполняться настолько долго, насколько можно - конкурент сливает свои оборотные средства. Которые нужно раздать дропам, заплатить с этой операции налоги, а потом собрать обратно.
А если это 1 отрицательный отзыв - ну, бывает и такое.
atrost
В последнее время, почти все продажи потребительских товаров строятся на лживых купленных отзывах и вранье.
Про
независимые "обзоры" и говорить не хочется.rsashka
И посленее время, это более 10 лет :-)