Постановка задачи
Имеется дискретное множество объектов. А также набор признаков для них. Предполагаем, что признаки числовые. Необходимо найти наилучший объект или группу объектов только на основе имеющихся признаков.
Сделаем небольшое отступление. Многие уже на этом моменте могут сказать, что подобные задачи решаются методом коллаборативной фильтрацией. И в целом они будут правы. Но есть случаи, когда фильтрация не подходит или ее недостаточно. Для примера давайте представим себя в роли продавца автомобилей, который думает, какой новой маркой, моделью авто ему начать торговать. Допустим, у него есть выбор из 1000 вариантов. И тут уже становится понятно, что идея коллаборативный фильтрации не очень хорошо вписывается в этот случай. Продавцу хочется сделать выбор, не основываясь на предпочтениях других продавцов, а исходить из неких характеристик, определяющих выгоду объекта.
В сухом остатке имеем n признаков. Что с ними нужно сделать, чтобы достичь желаемого? Можно суммировать значение всех признаков для объекта и получить итоговую оценку, которая отражает совокупный итог всех знаний об объекте. Но что не так в таком простом подходе?
Проблематика
Все признаки выражены в разных масштабах и взяты из разных распределений. Получаем, что некоторые из них будут вносить больший вклад в итоговую оценку. Стандартизация не поменяет вид распределения и не решит проблему разного влияние признаков. Переход к рангам мог бы решить эту проблему, но не стоит забывать, что значения признака для разных объектов могут и скорее всего будут повторяться. Соответственно, решение поставленной задачи будет заключаться в том, чтобы лишить набор признаков выше изложенных проблем.
Решение
Решение задачи будет заключаться в том, чтобы задать такое отображение A, переводящее каждый признак в новое пространство, в котором все признаки будут из одного распределения. Само распределение может быть любым, и сейчас не будем вдаваться в подробности, каким его взять, так как от части это будет зависеть от конкретного случая. Скажем лишь, что в данной статье возьмем нормальное распределение со средним значением, равным 50, с минимальным значением 0 и максимальным, равным 99. Дисперсию подбираем таким образом, чтобы плотность распределения в точке 99, умноженная на кол-во объектов, равнялась единице.
Приходим к картине, когда по оси X – возможные оценки для проставления какому-либо объекту по значению конкретного признака. А по оси Y – кол-во объектов, которым та или иная оценка может быть проставлена. Пока рассматриваем один конкретный признак. Его сортируем по убыванию. И, наконец, каждому объекту проставляется значение оценки по следующему правилу:
Оценка 99 из распределения может быть проставлена только одному объекту. Ее проставляем категории с самым большим значением признака или нулевым индексом (из-за сортировки). Далее оценка 98 из распределения может быть проставлена двум объектам (например). Ее проставляем категориям с индексами 1 и 2. И так далее для последующих оценок.
Проделываем аналогичные действия по всем имеющимся признакам. И получаем необходимый результат: все признаки распределены одинаково, и сумма значений их всех для отдельно взятого объекта не будет ничему противоречить
Кратко подведем итог того, что сделали: Каждый имеющий признак привели к одному заранее заданному распределению. В данному случае для 3 признаков мы получаем шар в трехмерном пространстве, из которого можно без труда выделить необходимый Топ объектов.
Но про один нюанс в данном подходе мы до этого момента не говорили:
Представим ситуацию, когда для признака Х выставляем оценку, например, 75. Ее можем проставить 10-и объектам. А перед нами 20 объектов имеют одно значение метрики и подходят для проставления оценки 75. Что делать? Как выбрать 10 объектов из 20 имеющихся?
Во-первых, нужно понимать, сколько таких случаев, насколько их много. Самое простое, что приходит на ум – взять отношение уникального кол-ва встречающихся значений признака и общего числа объектов.
Во-вторых, введем некую целевую метрику, еще один признак. И перейдем к паре признаков: целевая метрика и признак Х. Таким образом, если и не исключили неопределенность в выборе оценки, то как минимум должны были сильно уменьшить ее.
Edwward
Можно привести более подробный , конкретный пример?