
Привет, Хабр! Сегодня я хочу рассказать о применении одного из интересных методов работы со статистическими данными — расчета коэффициента конкордации, который также называют коэффициентом Кендалла W. Он помог нам упростить выбор BI-платформы на замену многострадальному Qlik, который сегодня вообще непонятно как продлевать. Под катом — куча BI-систем, наши попытки усреднить результаты рейтингов…и г-н Кендал с его методом 100-летней давности.
Итак, рассказваю. Задача у меня стояла как у всех — выбрать достойную BI-платформу для замены привычной, функциональной, но не признающей свои обязательства Qlik. Несколько инцидентов ИБ стали последней каплей, и начальство снова вернулось к выбору.
Я честно скажу, очень завидую коллегам, которые с оптимизмом смотрят в сторону Apache Superset и других опенсорсных решений, как автор этой статьи. У нас, увы, нет такого количества свободных ресурсов, чтобы самостоятельно развивать и выстраивать BI и то, что с ним связано — хранилище, аутентификацию, безопасность и прочее.
Но и выбирать готовую BI-систему, которую сопровождают, развивают и даже предлагают внедрение, оказалось тоже сложно. Я знаю, что некоторые коллеги уже сталкивались с подобной проблемой, и она не становится легче с годами. Вендоры (или те, кто себя ими считают) обещают все на свете, гарантируют полную совместимость, легкую миграцию и обещают сделать вообще все возможное для того, чтобы у нас “был то же Qlik, только русский”.
Чтобы разобраться, что к чему, в рунете уже есть много разных исследований, которые выходят ежегодно и включают в себя новые и новые BI-системы (в том числе инхаус-разработки различных холдингов и госструктур). В каждом отдельно взятом исследовании все это выглядит красиво, но руководители, которые хотят получить внятный анализ лучших BI-систем, в нашем случае тех, что “представляют настоящий Self-Service”.
Истина где-то рядом...
Очевидно, что с 2022 года ситуация со зрелостью и готовностью российских BI-платформ плюс/минус уже сложилась. И, теоретически, если изучить множество рейтингов, то они в среднем должны показывать истинную картину — кто-то уделяет больше внимания визуализации, кто-то рыночным показателям, кто-то возможностям работы с большими данными. То есть в целом они должны хоть чуть-чуть по-разному, но описывать одну и ту же картину.
Для этого мы выбрали такую методику, как расчет коэффициента согласия Кендалла W, который применяется для анализа рейтингов и усреднения мнений уже почти 100 лет. Почитать о нем подробнее можно здесь (но не путайте с критерием ранговой корреляции, потому что именно критерий согласия Кендалла W, также называемый коэффициентом конкордации, позволяет оценить, насколько сочетаются друг с другом мнения различных экспертов.
Итак, мы с ребятами собрали небольшую табличку с рангами BI-платформ. Присвоенными в различных исследованиях, рассмотрев наиболее популярные.

Методика сравнения критериев
Мы взяли минимум первые 5 мест для каждого критерия, остальные 5 мест выбирались как продукты с максимальными рангами из разных критериев, чтобы “уместиться” в 10 продуктов. Для сопоставления оценок производилось ранжирование от 1 до 10, при равенстве мест брался средний ранг. Например, для 3, 4, 4, 6 брался средний ранг и получалось 3, 4.5, 4.5, 6, что соответствует критериям ранговой корреляции.
Критерий согласия Кендалла W позволил нам оценить согласованность ранжирования между несколькими источниками.

А чтобы все было еще точнее, коэффициент Кендалла W считался с поправками на одинаковые ранги

Среди рейтингов…согласия нет
После проведения всех расчетов индекс согласия Кендалла W оказался удивительно низким и не дотягивал до 0,5, что по условной шкале означает “умеренное согласие”. То есть мы видим, что эксперты говорят об одном и том же, но между ними явно нет консенсуса.
Было принято решение изучать вопрос дальше. Такой невысокий уровень согласия может объясняться различными способами — либо рейтинги в мире BI вообще не имеют между собой согласия, и, как говорится “кто в лес, кто по дрова”, либо диссонанс в консенсус вводит какое-то одно исследование. Первый вариант выглядел очень грустным, потому что в этом случае нам пришлось бы прийти к выводу, что ориентироваться на рейтинги вообще нельзя.
Чтобы проверить, как меняется консенсус, мы начали исключить исследования одно за другим, рассчитывая коэффициент Кендалла W заново с одним из исключенных критериев. Соответственно, чем выше коэффициент без определенного критерия, тем сильнее конкретное исследование выбивается из общего консенсуса…если он существует.

На нашу удачу большинство исследований показали статистическую сходимость на ожидаемом уровне — не один-в-один, конечно, но вс же — исключая их по одному мы получали примерно одно и то же значения коэффициента Кендалла W — на уровне 0,42 - 0,45. Но одно исследование — Круг Громова 2024 — очень сильно выпадало из общей картины. Нам стало интересно, и мы решили проверить, характерно ли это для данного исследования? Может быть авторы Круга Громова придерживаются какой-то принципиально своей точки зрения? Для этого мы добавили в анализ еще и результаты Круга Громова 2023 и снова начали исключать рейтинги по одному. Позапрошлогодние результаты Круга Громова, что интересно, тоже отличаются, но выбиваются не сильно, а вот результат последнего исследования из ряда вон выпадает.

Коэффициент согласия Кендалла W на уровне выше 0,5 считается в математической статистике уровнем “значительного согласия”. Поэтому нам было достаточно рассмотреть усредненное значение рейтингов с исключенным Кругом Громова.
Заключение
Полученные результаты мы представили руководству, и в итоге для дальнейшего изучения было принято решение создать шорт-лист из сходящихся друг с другом исследований рынка BI, а дальше нас ждут пилоты из тех систем, входят в ТОП-5 усредненного рейтинга, а также подходящие нам по набору функций — уже индивидуальных для нашего кейса.
Таким образом критерий конкордации, который применяют для решения подобных задач еще с 1939 года, помог нам сузить круг выбора и уменьшить объем работы, который придется провести еще до пилотирования реальных BI-систем на замену Qlik. Хорошая штука матстат! :)
Комментарии (5)
RabbitMilash
29.08.2025 13:52Ну я вижу, вы нашли какой рейтинг самый неправильный. А какой самый правильный? Какие системы в итоге рассматриваете?
Vassssily Автор
29.08.2025 13:52Не хочу рекламировать какую-то одну платформу или рейтинг. Мы решали совсем другую задачу - пытались найти консенсус среди мнений, и в итоге нашли его. А дальше выбирать надо уже из своих предпочтений и требований. Сразу несколько рейтингов из этих позволяют оценить функциональные отличия платформ, а дальше - кому что лучше зайдет. Но все равно пилот надо делать.
bisufferer
А я думаю, что-то с Громовым в этом году не то...теперь ясно, что это не только ощущение
Vassssily Автор
Да, ощущениям без цифр верить нельзя...ну и директора тоже такому не верят...