Вот вроде отшумели события вокруг перезапуска «Кинопоиска», отошедшие пользователи проводят время на прежнем сайте, разработчики с парсерами строят коварные планы, руководством приняты кадровые решения неоднозначной направленности, а всё остальное вернулось на круги своя. Но не всё.

Откат к прежней версии сайта не коснулся рейтингов фильмов. И хотя на странице Топ-250 мы можем наблюдать хорошо знакомый многим расклад с «Побегом из Шоушенка» и «Зеленой милей» в качестве лидеров, на страницах самих фильмов, в выдаче «Гугла» и других местах рейтинг отображается новый — тот, который лег в основу Топа-250 бета-версии (у меня он открывается с перебоями, что наблюдалось и сразу после перезапуска).

И по прошествии недели ничего не поменялось, как бы намекая нам, что новый рейтинг останется надолго, если не навсегда. Не исключаю, что вскоре обновится и старый топ, — может, он держится только потому, что алгоритм расчета рейтингов в нем отличается от алгоритма на страницах фильмов («в топе используются специальные механизмы, препятствующие накрутке рейтинга недобросовестными пользователями»), и этот алгоритм корректирует не новый, а старый рейтинг (в основном, в пределах пары сотых долей).

Общий взгляд


Ну что ж, давайте присмотримся к новому рейтингу. Если у вас он не открывается, вы можете воспользоваться сохраненной мной версией. Ей неделя (эту работу я хотел сделать давно и начал в начале прошлой недели, но доделать удалось лишь недавно, потом еще писал пост), но рейтинги за это время изменились незначительно (не более, чем на несколько тысячных, если сравнивать между собой подробные версии топа; за одним важным исключением — см. дальше).

Что сразу стоит сказать — за все время я так и не увидел относительно нового алгоритма комментариев представителей сервиса. По редизайну какие-никакие содержательные комментарии проскакивали, а вот обстоятельства ввода нового алгоритма расчета рейтинга окутаны глухим туманом. Единственный комментарий, который у нас есть, — это критика основателя «Кинопоиска» Виталия Тация, который выразил опасение, «а не убьют ли они [новая команда „Кинопоиска“] единственный достойный рейтинг фильмов в рунете… и не отправят ли всех своих пользователей на imdb».

То, что заметили все, — резкое падение на 35 позиций двух упомянутых выше лидеров и взлет «Интерстеллара» с 12-й позиции на 2-ю, а также скандальные 8,2 балла вместо 4,8 у треш-фильма «Зеленый слоник» (а после флешмоба пользователей, которые увидели это и решили довести до абсурда, — уже 9,1). Эти изменения могут показаться кому-то странными, но сами по себе их оценивать сложно (за исключением, пожалуй, «Слоника», который я, впрочем, не смотрел). Да, старый рейтинг по этим пунктам был ближе к рейтингу IMDb (где «Побег из Шоушенка» также на первом месте, а «Интерстеллар» — на 29-м), но это все еще не аргумент.

При более пристальном взгляде обнаруживаются и другие странные и спорные вещи. Для начала — из топа бета-версии убраны все фильмы с количеством голосов менее 70 тыс. (граница установлена опытным путем). Это не такая уж и мелочь: в связи с таким решением из топ-100 вылетает 21 фильм, 152-е место переезжает на 100-е, а 489-е — на 224-е (полную версию нового топа без этих изъятий см. в виде этого списка на старом «Кинопоиске», отсортированного по рейтингу). 70 тыс. голосов — это более чем серьезная граница; ее еще не преодолели в том числе нашумевший «Левиафан» или стартовавший две недели назад в российском прокате и полтора месяца назад в мировом «Марсианин». При этом в старом топе граница была 500, и никаких особых нареканий к нему по этой части я не слышал.


Стрелкой соединены позиции в одном и том же топе с порогом в 70 тыс. голосов и без

Такое решение могло быть принято из коммерческих соображений: менее популярные фильмы с меньшей вероятностью окажутся доступными к онлайн-просмотру у партнеров «Яндекса». И действительно: фильмы с количеством голосов менее 70 тыс. в первой сотне топа бета-версии, как правило, сняты далеко в прошлом столетии и либо доступны бесплатно у партнеров «Яндекса», либо недоступны; платного нет ни одного. (Чтобы убедиться в этом, вы можете использовать регулярное выражение ^[^\t]+\t((\d\d?|100)\t|[^\t]+\t(\d\d?|100)\t).+п$ на этой таблице, о которой рассказано ниже под спойлером. Фильмы вне топа — это те, что с прочерком во втором и третьем столбцах.)

Перейдем к самим рейтингам. Так как топ бета-версии отображает рейтинги вплоть до десятой доли вместо тысячной, вместо него лучше работать с упомянутым списком на старом «Кинопоиске».

Фильмы с 1-й по 42-ю позицию охватывают диапазон с 9,465 по 9,000 балла, причем у трех фильмов рейтинг равен ровно 9,000, а следующий за ними имеет рейтинг 8,299. Далее следуют сразу 55 фильмов в диапазоне от 8,271 до 8,200.



Ничего себе провал в 0,7 балла! В свою очередь, «девять ровно» — это явно следы какого-то то ли внешнего вмешательства, то ли непонятного округления; остальное же отдает просто каким-то причудливым соотношением факторов в формуле, порождающим неравномерное распределение.

А теперь обратите внимание, что это за три фильма с 9,000: это как раз те самые упавшие «Побег из Шоушенка» и «Зеленая миля», а с ними за компанию и разменявший 5-е место на 38-е «1+1». Опережая все, что будет сказано дальше, сразу же можно обратить внимание на то, что «Побег из Шоушенка» и «1+1» являются фильмами, доступными к бесплатному просмотру у партнеров «Яндекса».

Дальше — больше. За те несколько дней, что я работал с топом, мне выпало стать свидетелем чудесных метаморфоз с рейтингом еще одного фильма — «Хористов». Он упал с 8,745 (та самая «слепая зона» для остальных фильмов) до 8,260 за пару дней. Это невероятное «путешествие» мне даже удалось запечатлеть на webcitation.org при помощи кэша Bing: вот у фильма рейтинг 8,745, вот он 8,515, а в настоящий момент у него — 8,260. Чувствую себя охотником за паранормальными явлениями. Ни у каких других фильмов рейтинг даже с близкой скоростью не менялся. Этот фильм не является доступным у партнеров «Яндекса» ни бесплатно, ни платно.


Еще одна странная деталь — новые рейтинги меняются в странной взаимосвязи с изменением старых. Топ за 15 октября и за вчера, фильмы «Леон» и «Интерстеллар»

Подготовка к подсчетам


Надо сказать, что вначале я отнесся к новому рейтингу как к техническим заморочкам новой команды «Кинопоиска», не рассматривая всерьез версию о его умышленном искажении. Это просто не стиль «Яндекса» — компании, которая в целом блюдет свою репутацию; подобные манипуляции для нее должны являться строжайшим табу. Но после первых тревожных звоночков начали закрадываться подозрения. И тогда я решил разобраться во всем предметно.

И коли у нас есть два топа — новый и старый — и даже оба рейтинга для каждого фильма, а также данные по доступности этих фильмов к платному/бесплатному просмотру у партнеров «Яндекса», решение напрашивается простое: сопоставить позиции всех фильмов в одном топе и в другом, а до кучи — и их рейтинги, вычислить среднее арифметическое у платных, бесплатных и всех остальных фильмов и сравнить. Конечно, такой способ не претендует на точность выводов, но общее впечатление составить способен.

Методологические тонкости, процесс и таблица со сводными данными
Несмотря на кажущуюся легкость задачи, в процессе возникло несколько сложностей, связанных, во-первых, с тем, чтобы выдержать относительную методологическую корректность, а во-вторых, с многократно возросшим в этой связи объемом копипейста, обработки текста и перепроверок. Из этих соображений было решено ограничиваться первыми 100 позициями. К тому же при учете всех 250 возникли бы сложности с тем, что фильм из одного топа вовсе не присутствует в другом, и как учитывать такие случаи, непонятно.

Методологические сложности начинаются с того, что сравнивать два топа, в одном из которых (старом) присутствуют все фильмы, а в другом (новом) для них установлен порог вхождения в 70 тыс. голосов, не вполне корректно. То есть сравнивать с целью узнать, насколько в новом топе продвинулись фильмы с платным просмотром, можно, и результат, очевидно, будет — «хорошо продвинулись», в свете вышеупомянутых обстоятельств. Тем не менее здесь человеческому вмешательству еще можно найти какое-то глубокомысленное объяснение (ну, или не найти, а просто констатировать очевидное — «Да, таким образом они проталкивают партнерские фильмы наверх»). Меня же интересует больше техническая сторона, сам рейтинг — что изменится (или уже изменилось, если нынешнее положение дел предполагается закрепить) с его введением.

В результате я сделал так. Я взял топ старой версии и точно так же вырезал из него фильмы с количеством голосов менее 70 тыс. Затем рассчитал новые позиции (100-я стала 82-й, а 144-я — 100-й). И далее работал уже с двумя версиями старого топа (ниже они объединены в одну таблицу).

Далее сначала я прошелся по позициям фильмов в топе бета-версии и нашел соответствующие им позиции в двух топах старой версии. Затем проделал то же самое наоборот и добавил недостающие фильмы (если фильма из старого топа вообще не было в новом из-за недобора голосов, я открывал страницу фильма и смотрел, есть ли для фильма возможность просмотра). В совокупном списке оказались фильмы, присутствующие хотя бы в одном из топ-100. Второй шаг («наоборот») нужен для того, чтобы избежать перекоса в сторону первого топа: если он берется за точку отсчета, то средняя позиция в нем будет существенно ниже, чем во втором, и мало ли, какие еще аномалии это может с собой принести.

Результаты, надо сказать, уже не заставили себя ждать — в новый топ-100 из второй сотни даже адаптированного старого проникли 4 платных фильма и ни одного бесплатного, а покинули его 4 бесплатных и 1 платный. Но не будем опережать события.

По результатам получилась следующая табличка (полная версия; как я уже сказал, за прошедшее время рейтинги незначительно изменились; кроме «Хористов», про аномалию с которыми читайте выше):

1	1	36	Побег из Шоушенка 	9.202	9.000	б
2	2	37	Зеленая миля 	9.154	9.000
3	3	1	Форрест Гамп 	9.008	9.465
4	4	3	Список Шиндлера 	8.895	9.405
5	5	38	1+1 	8.880	9.000	б
6	6	4	Король Лев 	8.775	9.397
7	7	5	Начало 	8.773	9.358	п
8	8	14	Леон 	8.772	9.272
9	9	6	Бойцовский клуб 	8.710	9.336
10	10	12	Жизнь прекрасна 	8.700	9.294	б
11	11	8	Иван Васильевич меняет профессию 	8.694	9.324	б
12	12	2	Интерстеллар 	8.667	9.409
13	13	11	Достучаться до небес 	8.657	9.295	п
14	14	10	Крестный отец 	8.650	9.299
15	15	22	Престиж 	8.632	9.190	п
...
128	94	103	Любовь и голуби	8.197	8.156	б
130	95	101	Легенда №17	8.194	8.158	б
133	96	79	Город Бога	8.192	8.197	б
141	97	135	Белый плен	8.180	8.128	п
142	98	96	Воин	8.180	8.168	б
143	99	106	Заплати другому	8.179	8.149
144	100	91	Терминал	8.178	8.174
161	109	99	Король говорит!	8.163	8.161	п
164	110	85	Шерлок Холмс	8.161	8.182	п
170	113	73	Исчезнувшая	8.151	8.207
177	117	94	Бешеные псы	8.140	8.171
187	122	97	Вечное сияние чистого разума	8.129	8.167
210	130	100	Загадочная история Бенджамина Баттона	8.097	8.161	п
296	155	92	Безумный Макс: Дорога ярости	8.053	8.171	п
362	164	98	Реквием по мечте	8.025	8.165

Первый столбец — позиция в старом топе, второй — позиция в нем же, если исключить из него фильмы с количеством голосов менее 70 тыс., третий — позиция в новом топе на бета-версии сайта. Сначала идет старый рейтинг, затем новый. Последняя буква или ее отсутствие — доступность платного («п») и бесплатного («б») просмотра у партнеров «Яндекса».

(Так как рейтинги записывались чуть позже позиций, 39-я позиция в новом топе «Бриллиантовой руки» не соответствует ее рейтингу между 47-й и 48-й позициями. И судя по тому, что 39-е место как раз должно иметь рейтинг между 8,299 и 9,000, она пережила как раз ту аномалию, которую я описал выше в случае с «Хористами», которые на моих глазах упали с 43-й позиции на 49-ю. Еще сильнее чувствую себя персонажем сериала «X-Files». Говорят, есть еще фильм «Паранормальное явление» про это — надо посмотреть. Ух ты, можно онлайн за 99 ? на новом «Кинопоиске». 7,0 баллов! Подождите, как это выросло на полбалла?)


Простая арифметика


Переходим к делу. В этом месте стоит оговорить, что то, что я проделал, может повторить за мной каждый. Желающие могут проделать это не для 100, а для всех 250 фильмов (если смогут преодолеть вышеупомянутые сложности). Внизу поста я привел регулярные выражения, которые позволяют осуществлять выборку из таблицы выше под спойлером, на случай, если вы хотите работать с ней.

Позиции


1. Для начала посмотрим, как изменились позиции между двумя топами как есть, т.е. без согласования критериев для включения в топ (вырезания из старого топа фильмов с количеством голосов менее 70 тыс. и последующей корректировки позиций, см. выше под спойлером).

Все расчеты в развернутом виде приведены здесь. (Все это, наверное, было бы удобнее провернуть в электронной таблице, но было лень их вспоминать; регулярки + множественные курсоры + копипейст в калькулятор тоже ничего.)

  • Средняя позиция всех 102 фильмов сместилась на 16,12 вверх (из-за того, что низким позициям в неадаптированном старом топе соответствуют высокие в новом, но не наоборот).
  • Каждый из 29 фильмов с платным просмотром сместился в среднем на 24,89 позиции вверх.
  • Каждый из 21 фильма с бесплатным просмотром сместился в среднем на 5,77 позиции вверх.
  • Каждый из 52 недоступных к просмотру фильмов сместился в среднем на 15,43 позиции вверх.

И самое главное:
  • Разница между ростом платных фильмов и средним ростом составила 8,77 позиции.
  • Разница между ростом бесплатных фильмов и средним ростом составила ?10,35 позиции.


2. Теперь посмотрим, каково в этом участие самого рейтинга, а не рейтинга + критериев для включения в топ. Сравниваем позиции между новым топом и адаптированным для согласования критериев старым.

Расчеты — здесь.

  • Средняя позиция всех 108 фильмов сместились на 0,96 вверх.
  • Каждый из 30 фильмов с платным просмотром сместился в среднем на 5,97 позиции вверх.
  • Каждый из 24 фильмов с бесплатным просмотром сместился в среднем на 5,91 позиции вниз.
  • Каждый из 54 недоступных к просмотру фильмов сместился в среднем на 1,24 позиции вверх.

Итого:
  • Разница между ростом платных фильмов и средним ростом составила 5,01 позиции.
  • Разница между ростом бесплатных фильмов и средним ростом составила ?6,87 позиции.


Рейтинги


3. Так как рейтинги есть у всех фильмов независимо от количества голосов, мы можем сравнить рейтинги фильмов в совокупной выборке из обоих топ-100 напрямую. Количество фильмов в выборке при этом увеличивается. Сравниваем новый топ с неадаптированным старым.

Расчеты.

  • Средний рейтинг всех 120 фильмов вырос на 0,142 балла.
  • Рейтинг каждого из 29 фильмов с платным просмотром вырос в среднем на 0,232 балла.
  • Рейтинг каждого из 28 фильмов с бесплатным просмотром вырос в среднем на 0,023 балла.
  • Рейтинг каждого из 63 недоступных к просмотру фильмов вырос в среднем на 0,154 балла.

Итого:
  • Разница между ростом платных фильмов и средним ростом составила 0,090* балла.
  • Разница между ростом бесплатных фильмов и средним ростом составила ?0,119* балла.

* — Драматическое изменение в рейтинге «Хористов», описанное выше, повысит эти значения на несколько тысячных.

Девять сотых — это не так мало, как может показаться. Если средний рейтинг на старом «Кинопоиске» 7,2, а максимальный — 9,2, и если считать все фильмы от 7 и выше располагающими к просмотру, это ни много ни мало 4% от диапазона «смотрибельной зоны».

4. Наконец, возьмем выборку из второго сравнения и применим ее к рейтингам. Сравниваем рейтинги между новым топом и адаптированным для согласования критериев старым.

Расчеты.

  • Средний рейтинг всех 108 фильмов вырос на 0,142 балла (как и в прошлом пункте).
  • Рейтинг каждого из 30 фильмов с платным просмотром вырос в среднем на 0,223 балла.
  • Рейтинг каждого из 24 фильмов с бесплатным просмотром вырос в среднем на 0,054 балла.
  • Рейтинг каждого из 54 недоступных к просмотру фильмов вырос в среднем на 0,136 балла.

Итого:
  • Разница между ростом платных фильмов и средним ростом составила 0,081 балла.
  • Разница между ростом бесплатных фильмов и средним ростом составила ?0,088 балла.

(«Хористов» в этой выборке нет.)

Все вычисления были перепроверены.

Выводы


Разумное сомнение


В принципе, один платный фильм, уехавший на 150 позиций вверх, дал бы тот результат, который приведен во втором сравнении, и это можно было бы считать случайностью. Но таких огромных разниц в позициях между двумя топами нет. Максимальная разница у платных фильмов — 63 позиции, отвоеванные «Безумным Максом: Дорогой ярости», и взлет «Безумного Макса» компенсируется, например, падением «Белого плена» на 38 позиций.

Также, наверное, можно было бы посчитать, насколько такое отклонение вероятно, если бы формула расчета выдавала фильмам случайные позиции в определенных пределах. В силу отсутствия у меня больших познаний в статистике, оставляю это тем, у кого они есть. Но у меня большие сомнения, что такая вероятность сколько-нибудь велика. (Грубым путем убедиться в равномерности отклонения можно, посчитав показатели отдельно для топ-50 и фильмов с 51 по 100 позиции по тем же принципам; что я и проделал — выводы сохраняются (рост 4,44 и 8,19 для платных на второй выборке; второе значение больше, очевидно, оттого, что скачки по топу сильнее).)

Само по себе поднятие рейтингов платных фильмов и проседание бесплатных не означает умысла — могут быть неочевидные факторы, которые по чистому совпадению повышают значение одних переменных и понижают — других. Условно говоря, можно представить, что для старых советских фильмов, у которых чаще всего есть возможность бесплатного просмотра, существуют некоторые особенности проставления им оценок пользователями, которые, с точки зрения нового алгоритма, играют на принижение рейтинга этим фильмам. С другой стороны, сам факт того, что эти совпадения загадочным образом играют на руку коммерческим интересам компании (а не, например, против ее интересов) в любом случае не может быть оставлен без внимания публики.

Что еще? Так как корреляция не означает причинно-следственную связь, в голову приходит гипотеза обратной взаимосвязи.
Пример того, как она работает
Именно это предположение было правдоподобным объяснением феномена, отмеченного в популярном посте 3-летней давности, где была выявлена предположительная минимальная корреляция между знаками зодиака и особенностями характера. Люди, интересующиеся астрологией, проходили тесты на определение психологического типа. Предложенное объяснение заключалось в том, что их представления о своем знаке зодиака отразились на том, как они отвечали на вопросы теста, отсюда корреляция.
Не могло ли быть так, что партнерам «Яндекса» был предоставлен новый топ, и они подогнали под него свой ассортимент?

Циничная версия



Посетители «Кинопоиска», любители кино, знают, что это за ребята

Есть и более тривиальное объяснение. Оно звучит так:

Эффективные менеджеры «Яндекса» очень эффективные и очень сильны в метриках, анализе и расчетах. Они были настолько искушены в оптимизации всего вокруг, что не только обгрызли функциональность сайта, исключив все, что не приносит прямого дохода, но и даже возможности подтолкнуть на десятую балла вверх рейтинг платных фильмов не упустили. При этом здраво рассудив, что если уж и корректировать рейтинг, то незаметно, чтобы не спровоцировать массовое недовольство, будь это сделано топорно. В самом деле — неужели кто-то будет сидеть с калькулятором и высчитывать разницу в позициях и рейтинге для каждого фильма?? OH SH…

А так 9 позиций в топ-100 или одна десятая балла рейтинга — казалось бы, ерунда — конвертируются во вполне ощутимые тысячи и миллионы деревянных.

Итог


От себя скажу, что лично меня версия за разумное сомнение не убедила и я склоняюсь ко второй, хотя могу только догадываться, какая логика была у принимающих решения. Впрочем, в свете недавнего инсайда я могу себе ее примерно представить.

Да и я с трудом себе представляю, зачем в принципе может понадобиться «корректировка» рейтинга. Хочется спросить: «Что вы собрались корректировать? Объективное мнение десятков и сотен тысяч?» (А еще — и это уже повторяет «большую» историю с перезапуском «Кинопоиска» — «Почему об этом обязательно не надо давать никаких комментариев?» Но бог с ним уже...) Что было не так со старым-то?

Очистка от накруток? Но в старом топе она уже применялась, да и справиться с накрутками можно более прямым путем — удалением фиктивных оценок вместе с пользователями, их поставившими. Да и сомневаюсь я, что кому-то могло понадобиться накручивать «Побег из Шоушенка».

Тем не менее все это в любом случае будут только подозрения. Поэтому интересно было бы выслушать позицию самого «Яндекса». Не исключаю, что есть какое-то более тривиальное объяснение, которое ускользнуло от моего внимания.

Как бы там ни было — вся эта затея с новым рейтингом не вызывает ничего, кроме недоумения, как у меня, так и у всех остальных, с чьим мнением мне приходилось сталкиваться, — будь то по объективным основаниям или же исходя из чисто субъективных ощущений. Поэтому, а также по результатам всего вышеизложенного призываю «Яндекс» отказаться от нового алгоритма, чтобы не подрывать доверие к уникальному в Рунете рейтингу фильмов, сериалов и т.д. — достойной альтернативе рейтингу IMDb, а также к самим «Кинопоиску» и «Яндексу».

Чтобы не завершать на плохой ноте, скажу, что в процессе работы с топом нового сайта я таки смог оценить, на мой взгляд, незаслуженно осмеянный в памятном посте andorro «Что не так с запуском „Кинопоиска“» функционал кратких тегов, который куда лучше обозначения жанра дает понять, о чем тот или иной фильм, а также заглавные картинки фильмов вместо рекламных постеров.

Довесок


Сохраненные мной в веб-архиве:
  • Классический Топ-250
  • Топ-250 бета-версии нигде не сохраняется из-за мутных редиректов, да и в любом случае там подгрузка по 12 фильмов. Еще раз ссылка на сохраненный мной локально.
  • Топ-500, отсортированный по новому рейтингу: 1, 2
  • Топ-500, отсортированный по классическому рейтингу, за пределами 250 (ради двух фильмов): 3, 4

(Я, по-моему, брал данные из чуть более ранних версий.)

Регулярки для выбора из таблицы по ссылке выше всех фильмов:
  • первой выборки: ^((\d\d?|100)\t\d|[^\t]+\t[^\t]+\t(\d\d?|100)\t).+$
  • второй (она же четвертая) выборки: ^[^\t]+\t((\d\d?|100)\t|[^\t]+\t(\d\d?|100)\t).+$
  • третьей выборки: ^((\d\d?|100)\t|[^\t]+\t[^\t]+\t(\d\d?|100)\t).+$
Верите ли вы в чистоплотность «Яндекса» и отсутствие умышленных искажений в новом рейтинге?

Проголосовало 1963 человека. Воздержалось 292 человека.

Если вам вообще есть дело до рейтингов «Кинопоиска», желаете ли вы возвращения к старому алгоритму расчета?

Проголосовало 1824 человека. Воздержалось 407 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Комментарии (61)


  1. ruikarikun
    22.10.2015 19:38
    +5

    Прежде чем дать чёткий ответ на то, какая формула рассчёта лучше, интересно было бы взглянуть на новый алгоритм.

    Старый алгоритм известен, вот он:
    image
    V – количество голосов за фильм
    M – порог голосов, необходимый для участия в рейтинге Топ-250 (сейчас: 500)
    R – среднее арифметическое всех голосов за фильм
    С – среднее значение рейтинга всех фильмов (сейчас: 7.2470)


    1. marc13
      22.10.2015 20:19

      Kanick! Можно ли, меняя C (7.2470 -> ?) и M (500 -> 70 000), рассчитать новый рейтинг?


      1. ruikarikun
        22.10.2015 21:18
        +8

        Посмотрим на эту формулу повнимательнее:

        Rating в данной формуле рассчитывается как взвешенная сумма между R и C, то есть всегда находится в интервале между min(R,C) и max(R,C), по мере увеличения голосов приближаясь к R.

        Для фильмов с большой разницей между R и C, второе слагаемое вносит ничтожный вклад. В частности, при V>70000 и M=500, (M/V+M) не превосходит 0.007.

        Посмотрим на Фореста Гампа. У него оценок настолько много (333681), что старая формула редуцируется в Rating=R=9.007. Но при этом зелёный рейтинг равен 9.464, что значительно больше R.

        Можно ли подобрать такие M и C, чтобы новый рейтинг рассчитывался по статой формуле с новыми коэффициентами? Можно, но только вот M>=333681, C>=9.914.

        При таком раскладе новый Rating фильмов с 70000 оценками не может быть меньше 8.26.
        В старом рейтинге фильм с 500 оценками не мог иметь рейтинга меньше 3.62, что имеет больше смысла.

        Вывод: нет, изменили не коэффициенты, а формулу.


        1. marc13
          22.10.2015 21:24
          -1

          Ещё смешнее, они не меняли алгоритм. Вы не до конца процитировали со страницы Топ-250.


      1. marc13
        22.10.2015 21:20

        Попробовал сам. Нет. Ответ ниже


        1. ruikarikun
          22.10.2015 21:41
          +3

          Посмотрим на Распределение голосов по оценкам и увидим статистику голосования:

          54.03*10 + 23.34*9 + 12.38*8 + 5.24*7 + 1.94*6 + 1.11*5 + 0.48*4 + 0.38*3 + 0.22*2 + 0.88*1 = 100.00*9.0765

          То есть средний бал после какой-то части фильтрации — 9.0765. Чтобы догнать его до 9.464, нужно отфильтровать огромное количество не-десяток и оставить как можно больше оценок 10. Предполагается, что цель фильтрации — избавиться от накруток, в частности тех, кто несправедливо поставил 1 балл.

          Но постойте!!! 1 балл же поставило 0.88% пользователей. Даже если их всех выкинуть, это не прибавит фильму почти 0.4 балла. Более того, какими бы ни были критерии накрутки, наверняка они применимы и к оценкам «10», которых заметно больше.

          Я полагаю, что после тщательной фильтрации, рейтинг Фореста Гампа должен чуть уменьшиться, а не значительно увеличиться, как мы видим.


          1. ruikarikun
            22.10.2015 21:53
            +8

            Интересное совпадение, если считать рейтинг Фореста Гампа только по оценкам 10, 9 и 8, то получается в точности его новый рейтинг: (54.03*10 + 23.34*9 + 12.38*8) / (54.03 + 23.34 + 12.38) = 9.464


            1. ruikarikun
              22.10.2015 22:04
              +12

              Внезапно, эта же формула работает с погрешностью 0.001 и для Интерстеллар (оценка 4.409):

              Если суммировать только 10, 9 и 8:
              (48.71*10 + 21.36*9 + 14.3*8)/(48.71 + 21.36 + 14.3) = 9.40784639089724

              Для сравнения, если суммировать только 10, 9, 8, 7, 6 и 5:
              (48.71*10 + 21.36*9 + 14.3*8 + 7.83*7 + 3.4*6 + 1.68*5)/(48.71 + 21.36 + 14.3 + 7.38 + 3.4 + 1.68) = 9.060724981927088

              Яндекс, я что угадал инновационную формулу по отсеиванию накруток?


              1. ruikarikun
                22.10.2015 22:10
                +6

                Список Шиндлера (оценка 9.404), теория подтвердилась.

                (49.18*10 + 23.88*9 + 14*8)/(49.18 + 23.88 + 14) = 9.404089133930622


                1. marc13
                  22.10.2015 22:21

                  Этот фильм был в топ 250: www.kinopoisk.ru/film/38905/votes
                  По вашей формуле: 8,914, хотя у него 7.904.
                  Нужно доработать формулу или определить, на какие фильмы она распространяется. :)


                  1. ruikarikun
                    22.10.2015 22:26
                    +6

                    Для этого фильма 10 игнорируются вообще, берутся 9, 8 и 7.
                    >>> (15.83*9+24.69*8+21.8*7)/(15.83+24.69+21.8)
                    7.904204107830552

                    Судя по всему, берутся то ли 3 самых популярных столбца, то ли ищется самый большой и берутся его соседи, то ли ещё что-то в таком духе делается.

                    Нужно найти фильм, у которого сильно накручены 1 и 10 и посмотреть, какие столбцы берутся для него.


                    1. marc13
                      22.10.2015 22:31
                      -2

                      Ну тогда я не вижу заговора. Вполне логично: брать за основу большинство. Правда сейчас понятно как накручивать оценки с минимальными затратами.


                      1. Meklon
                        22.10.2015 22:37

                        Что-то типа медианного фильтра?


                      1. ruikarikun
                        22.10.2015 22:40
                        +7

                        Заговора и правда похоже что нет. А вот определённая доля глупости в случившемся есть.

                        В вашем примере с Шоколадной фабрикой оценка была бы выше, если бы фильм был чуть хуже, и некоторые из 19.5% (!) пользователей поставили фильму не 10, а 9 или даже 8 (!!).


                        1. marc13
                          22.10.2015 23:04
                          +1

                          Она могла бы быть выше при условии не полного игнорирования, а, допустим, применения коэффициентов.


                          1. Kanick
                            22.10.2015 23:53
                            +2

                            Крутой брейншторм тут у вас. На ночь глядя тяжело вдумываться, лучше скажите — резкое падение «Хористов» и «Бриллиантовой руки», описанное в посте, это объясняет? Округленные три одинаковых рейтинга?


                            1. ruikarikun
                              23.10.2015 02:48
                              +9

                              Я проанализировал www.kinopoisk.ru/top, результаты следующие:
                              1. Есть ровно три фильма с рейтингом ровно 9. Не знаю, почему так.
                              2. Новый рейтинг >9 получен путём усреднения оценок 8,9,10
                              3. Новый рейтинг от 8 до 9 получен путём усреднения оценок 7,8,9.
                              4. Других способов вычисления оценок для топовых фильмов нет. Это объясняет, почему не бывает фильмов с рейтингом 8.5, например.

                              Вот старый топ 250 разложенный на эти 3 кластера, для левой половины работает синяя формула, для правой оранжевая, три фильма ровно по девятке:


                              Хористов и Брильянтовую руку запихнули в тот кластер, что считается по формуле усреднения оценок 7, 8 и 9, поэтому их рейтинг упал.


                              1. Kanick
                                23.10.2015 09:36

                                О, отличная работа. Ага, т.е. 9,000 таки походит на результат ручного вмешательства? А так бы они так и оставались в лидерах. Напомню, что два из них бесплатные, один недоступный для просмотра.

                                Промелькнула мысль, что эти три ручные правки одни могли произвести и итоговое отклонение. Но нет, ничего подобного — если брать мой второй пункт в посте, обвал двух бесплатных дает только порядка -2,5 позиции, если размазать по всем, а общее отклонение — -6. Да и там продвижение идет и по платным, и по бесплатным, и в первой половине топ-100, и во второй.

                                О, вот как может быть — этот вариант же возможен, так? — как-то полуавтоматически (точно не вручную — фильмов-то много) выбирали для каждого фильма, по какому из двух усреднений (для менее рейтинговых фильмов это может быть 6, 7 и 8 и т.д.) ему считаться, с лёёёгонькой пессимизацией бесплатных и «оптимизацией» платных. Что в итоге выливается в полученный мной результат.


                              1. Kanick
                                23.10.2015 09:53
                                +3

                                Ох, как же это все печально… То есть я понимаю, хотели повысить баллы нужным, но черт возьми! Ну что это за способ такой — считать по трем окружающим оценкам? Как измышление какого-то школьника. Вредного школьника. Которому в руки дали главную киноэнциклопедию страны, чтобы он мог срубить на ней деньжат. Не говоря уж о том, чтобы вот так, вручную подправлять баллы, и так топорно — до круглого значения. Это какие-то выборы в Чечне!

                                Черт, я хочу знать, кто за это несет ответственность!

                                Ребята, это был (и пока еще есть) серьезнейший конкурент IMDb! Ну как же можно так в лоб компрометировать. Я все подозревал какой-то изощренный умысел и алгоритм, но они даже накрутить по-человечески не могут, чтобы не палиться! Детский сад какой-то.


                                1. ruikarikun
                                  23.10.2015 12:31
                                  +1

                                  >>>Ну что это за способ такой — считать по трем окружающим оценкам?
                                  Медианный фильтр. Более того, оказалось, что он используется не для всех фильмов.

                                  Я выкачал заодно "Популярные фильмы" и добавил к анализу те, что уже вышли, получилось 406 фильмов. Для каждой оценки попытался угадать её происхождение усреднением по трём соседним столбцам. Получилось вот что:


                                  Нижний ряд — это не, для кого применяется какой-то другой способ.

                                  Две самые правые точки нижнего ряда:
                                  Небольшой слон зелёного цвета: www.kinopoisk.ru/film/373314/votes
                                  Главный: www.kinopoisk.ru/film/799410/votes

                                  У обоих фильмов очень много единиц, видимо это триггерит какую-то эвристику и вместо 10,9,8 или 9,8,7 используется какая-то другая формула.


                                  1. Kanick
                                    23.10.2015 22:52
                                    -1

                                    С какого дуба должен был рухнуть тот, кто собрался считать рейтинги киносайта с медианным фильтром? Коли вы в теме — неужели кто-то таким образом считает показатели на единой ГЛАДКОЙ ШКАЛЕ? Она должна быть ГЛАДКАЯ, черт возьми, а не ступенчатая! Это же просто банальная некомпетентность. Какой-то, извините, клоун в их штате решил по-хитрому преобразовать рейтинг, оставим сейчас в стороне с каким умыслом, но так как, помимо того, что он был клоун, он еще и шарил в статистике, он придумал воплотить это через МЕДИАННЫЙ ФИЛЬТР. Are you kidding me?

                                    Мой гнев не иссякнет никогда, ну вот честное слово. Один большой анекдот этот новый Кинопоиск.

                                    Знаете что? Этим менеджерам еще очень повезет, если они на какую-то долю таки окажутся эффективными.

                                    Так, ладно. У остальных из нижнего ряда тоже единицы? Можно узнать, что за третий, четвертый и пятый? Они входят в ту зону, которая покрывается у меня в посте. Но они в любом случае не должны делать погоды, даже если там больше 70000 голосов.

                                    P.S. Можете подсказать, в какой программке это все делается? Графики?


                            1. ruikarikun
                              23.10.2015 02:48

                              Интересно, что при этом и у «Хористов», и у «Брильянтовой руки» больше 30% оценок 10.
                              Возможно, это считается накруткой.


                              1. ruikarikun
                                23.10.2015 03:07
                                +1

                                Интересный факт: сильнее всего от подозрений в накрутке пострадал фильм "Хатико: Самый верный друг". Учитывались только 7, 8 и 9, при том что фильм получил 43.87% десяток.

                                Новый рейтинг (7,8,9): 8.244 (использован)
                                А если считать по справедливости, три максимальных столбца (8,9,10), то было бы 9.333.

                                Готовы негодовать? Зря. Старый рейтинг фильма: 8.466, не так уж и далеко от 8.244.


                                1. Kanick
                                  23.10.2015 12:09
                                  +2

                                  Ну дык! «Хатико» бесплатный. По табличке видно, что он съехал на 12 позиций по сравнению с адаптированным старым топом. Все рейтинги в среднем выросли на 0,142 (см. пост), этот упал на 0,222.

                                  Бросьте вы — какие там подозрения в накрутке? «Бриллиантовая рука» бесплатная, «Хористы» недоступные. Пока что мое объяснение чуть выше выглядит вполне правдоподобным. Это не пользователи накручивают, а «Яндекс» / ребята из нового «Кинопоиска».


                                  1. ruikarikun
                                    23.10.2015 12:46
                                    +1

                                    Пока что я предпочту не верить вам и считать происходящее совпадением.
                                    Меня убедит только критерий разбиения на кластеры 7,8,9 и 8,9,10, но его мне найти пока не удалось.


                                    1. Kanick
                                      28.10.2015 06:47

                                      Что-то раньше не догадался до простого способа проверить гипотезу о решающем влиянии критерия разбиения на кластеры — разбить сводную табличку на три приблизительные части — зону, где кластер 10-9-8 правит безраздельно, зону столкновения кластеров (именно там должна проявиться роль критерия) и зону кластера 9-8-7 — и посчитать все показатели роста для них раздельно, взяв за основу вторую выборку из поста. (Исходя из того, что 9,000 — явно вручную правленный рейтинг, чтобы получить чистые характеристики самого алгоритма расчета, я устранил последствия ручной правки — три фильма переместились, таким образом, на 1-е, 2-е и 4-е места (опираясь на то, что видно на вашем графике). Обновленная табличка.)

                                      Выделены все фильмы из кластера 10-9-8:



                                      Для начала, видно, что область «столкновения кластеров» не так велика и ей с большой долей вероятности можно найти разумное объяснение (хотя я тоже не нашел).

                                      Сравним показатели роста (под каждой парой вычислений v). Крохотные выборки, но хоть какие. Средний показатель роста для всех — 0,96.

                                        кластер 10-9-8 безраздельно
                                      платные
                                      7 + 13 + 15 + 19 + 26 + 27 = / 6 = 17,83
                                      8 + 14 + 25 + 10 + 33 + 16 = / 6 = 17,67
                                      0,16
                                      
                                      бесплатные
                                      1 + 5 + 10 + 11 + 17 + 18 + 25 = / 7 = 12,43
                                      1 + 4 + 15 + 11 + 19 + 18 + 12 = / 7 = 11,43
                                      1
                                      
                                        зона столкновения кластеров
                                      платные
                                      29 + 30 + 31 + 33 + 34 + 37 + 38 + 50 + 53 = / 9 = 37,22
                                      20 + 24 + 36 + 46 + 29 + 47 + 21 + 45 + 38 = / 9 = 34
                                      3,22
                                      
                                      бесплатные
                                      28 + 39 + 40 + 45 + 51 = / 5 = 40,6
                                      39 + 48 + 52 + 44 + 68 = / 5 = 50,2
                                      -9,6
                                      
                                        кластер 9-8-7 безраздельно
                                      платные
                                      54 + 64 + 68 + 72 + 75 + 83 + 84 + 86 + 89 + 90 + 97 + 109 + 110 + 130 = / 14 = 91,07
                                      49 + 61 + 66 + 70 + 69 + 83 + 80 + 82 + 95 + 87 + 135 + 99 + 85 + 100 = / 14 = 83,53
                                      7,54
                                      
                                      бесплатные
                                      59 + 63 + 66 + 79 + 82 + 88 + 91 + 92 + 94 + 95 + 96 + 98 = / 12 = 83,58
                                      56 + 78 + 54 + 77 + 111 + 124 + 81 + 90 + 103 + 101 + 79 + 96 = / 12 = 87,5
                                      -3,92

                                      Хотя в случае с бесплатными фильмами показатель зоны столкновения зашкаливает, для платных распределение более естественное (чем дальше от начала топа, тем больше должны скакать позиции). Если только это не вклад ваших 3-4-5-й справа точек из нижнего ряда. А то было бы мощным финалом.

                                      Таким образом, вынужден согласиться — подозрения в адрес именно самих внутренностей алгоритма, скорее всего, беспочвенны. То есть это значит лишь то, что прямо прописанных повышающих/понижающих коэффициентов для платных/бесплатных фильмов в алгоритме, скорее всего, нет. Никуда не девается сам факт смены формулы на такую удивительно полезную для платных фильмов и неполезную для бесплатных (полезную/неполезную настолько, что только что посчитанная мной вероятность получения такого исхода в результате случайных флуктуаций равна порядка 2,8% (только платные) * 1,1% (только бесплатные) = 0,03%), а также факт внесения ручных правок (каковой лично для меня являются той чертой, после перехода которой поиск «заговора» и «злого умысла» перестает быть маргинальным занятием. Если кто-то на это пошел — далее возможно всё).

                                      Впрочем, вполне достаточно и того дна, которое мы имеем в результате одного только способа расчета на основе того, что было обозначено как «медианный фильтр» (который на самом деле не очень-то похож на медианный — по страницам голосований за фильмы видно, что медиана почти всегда лежит на девятке, а восьмерка начинается где-то на 55-65% выборки). Это ставит под удар достоверность оценок и состоятельность рейтинговой системы куда больше, чем прибавки/убавки платным/бесплатным фильмам по десятой балла.

                                      Надеюсь, тема закрыта. Тем временем «Яндекс» утверждает, что «собирается» вернуть прежние рейтинги.

                                      P.S. Я вас чем-то смутил? Все-таки, если не сложно, хотелось бы услышать название программки для графиков. Ежели вы приняли меня за паникера или типа того, смею заверить, что я не бросаюсь громкими словами без веских на то оснований. Полученные мной в посте цифры являлись таким основанием. По их порядку можно было заключить, что это крайне маловероятно, чтобы они были произведены случайными флуктуациями. То, что сам алгоритм, судя по всему, незапятнан, меняет положение дел в частных моментах, но общая картина остается нетронутой.


                                      1. marc13
                                        28.10.2015 07:18

                                        Про столкновение кластеров: скорее всего есть правило при выборе базы, которое простое и аналогично идиотское, как и весь алгоритм рейтинга. И да, отвечу за ruikarikun, смотря на шрифт и оформление, для графиков использовался Excel 2010 / 2013.


                                        1. Kanick
                                          28.10.2015 08:12

                                          Я пытался докопаться до этого правила — все тщетно. Это, а также рейтинг «Зеленого слоника» и пр. не выводится очевидным образом решительно из никаких цифр, присутствующих в открытом доступе.

                                          Ну вот навскидку 5 фильмов с показателями, по порядку: «медиана» (которая не медиана) кластера (9 для 10-9-8, 8 для 9-8-7); средневзвешенное на странице голосования за фильм; классический рейтинг (взят из последнего значения на графике); рейтинг в Топ-250; процент оценок 10; процент оценок 10+9; процент оценок 10+9+8.

                                          хатико		8	8,686	8,478	8,467	43,85	64,77	81,5
                                          темный рыцарь	9	8,680	8,483	8,476	39,59	64,28	82,68
                                          валли		8	8,611	8,499	8,489	37,65	61,82	81,29
                                          запах женщины	9	8,596	8,480	8,467	32,05	59,5	82,32
                                          одержимость	9	8,581	8,435	8,416	27,92	58,37	82,98

                                          Какой критерий ни берешь, чтобы упорядочить, — кластеры разорваны, то бишь нет такого, что сверху все 9, снизу все 8. Бог с ним — просто есть некие «эзотерические» данные, находящие применение во внутренней кухне. Как я показал выше, скорее всего, там нет ничего представляющего интерес с точки зрения сабжа.

                                          Про Excel — ах ты ж, как банально :) Думал, узкоспециализированное что. Привычка использовать низкоуровневый софт и избегать громадин играет злую шутку.


                                          1. Kanick
                                            28.10.2015 08:17

                                            Тут, кстати, этот критерий есть — последняя колонка. На других фильмах уже не работает.


                                            1. marc13
                                              28.10.2015 11:52
                                              +1

                                              Я попытался выявить закономерность, но увы, может у вас получится:



                                              Excel yadi.sk/i/8z48tB7ik4p5g
                                              Text yadi.sk/i/7oFTbo-hk4p6V
                                              Скрипт получения информации yadi.sk/d/S5Ubk0Byk4p7H


                                          1. Meklon
                                            28.10.2015 08:49
                                            +1

                                            Graphpad prism ещё очень хорош.


                                  1. Mogwaika
                                    24.10.2015 17:05

                                    Кстати, там ещё большая путаница между Рейтингом и Средней оценкой.
                                    Например у www.kinopoisk.ru/film/510062/votes
                                    Средняя оценка для разных групп выше средней оценки и М/Ж лежит около рейтинга1.783, а не средней оценки 1.140.
                                    А рейтинг в Топ 20 худших сериалов ещё выше 2.710…
                                    Я совсем запутался…


                                    1. Kanick
                                      28.10.2015 07:01

                                      В этом, кстати, тоже своя доля юмора. Если в классическом рейтинге они отсекали часть голосов по какому-то принципу (я проверил — они давали около одной-двух десятых долей рейтинга, что немало; и это еще до коррекции для нужд Топа-250), то новом в расчет идут все (даром что учитываются они так, как лучше бы не). Не знаю, хорошо это или плохо.


                      1. Kanick
                        22.10.2015 23:52
                        +2

                        Заговора нет — ой ли? Процитирую пост: «С другой стороны, сам факт того, что эти совпадения загадочным образом играют на руку коммерческим интересам компании (а не, например, против ее интересов) в любом случае не может быть оставлен без внимания публики».

                        Заговор же не в том, чтобы считать не по формуле. А в том, чтобы считать по правильной формуле. Это как закон, который что дышло. «Побеждает тот, кто устанавливает правила».

                        Есть две опции:

                        1. введенный алгоритм действительно по воле случая дает такое отклонение в пользу платных и против бесплатных, а в «Яндексе» просто зачем-то хотели улучшить рейтинг и перевести все на него;
                        2. либо же в «Яндексе» сначала хотели «улучшить» рейтинг (а на самом деле понятно что), испробовали разные варианты корректировки и остановились на таком-то (пусть это тот, который вы начали распутывать). Да и тогда у него остается возможность дать какое-то глубокомысленное объяснение, дескать «вполне логично», что даже вы подумали.

                        Первая как казалась, так и продолжает казаться мне маловероятной.


                        1. Kanick
                          23.10.2015 00:22
                          +2

                          Интересно мнение минуснувшего. Не понравилось, что я подозреваю некий «заговор»?

                          То есть вы согласны с первым вариантом — что «Яндекс» зачем-то хотел улучшить рейтинг, но тут по воле случая платные фильмы взмыли наверх, а бесплатные грохнулись вниз?

                          На мой взгляд, это тот случай, когда логика «слишком много совпадений» имеет полное право на существование. Хотя я, опять же, допускаю, что совпадения — это просто совпадения, что несколько раз подчеркивал в посте.


                        1. marc13
                          23.10.2015 07:19

                          Коммерческая компания делает деньги, выбирая лучший для себя рейтинг. Тут я соглашусь. Но заговора с онлайн кинотеатрами я по прежнему не вижу. Надеюсь найдутся люди, которые возьмут yandex.ru/support/kinopoisk/api.xml и сделают расширение к firefox, показывающие оценку с желаемым алгоритмом.


                          1. Kanick
                            23.10.2015 07:42

                            Извините, я не вполне понимаю, как уживается одно с другим — выбирание выгодного для себя рейтинга и отсутствие заговора с онлайн-кинотеатрами, если, по фабуле поста, последний и состоит в первом.


                            1. marc13
                              23.10.2015 09:19

                              del


                            1. marc13
                              23.10.2015 09:19

                              Как я понял, партнёры приходят и уходят. Кинопоиск же зарабатывает непрерывно, ему всё равно, через какого партнёра показывать. Поэтому заговора я и не вижу, вряд ли прибегали партнёры и просили рейтинг пересчитать. Но это только моё мнение.


                              1. il--ya
                                28.10.2015 14:25

                                Партнёры ничего не просили, они просто платят комиссию за просмотренные фильмы


                        1. Mogwaika
                          24.10.2015 16:57

                          Оно уже пять лет назад не считало по нижней формуле, я попроверял и написал на форуме кинопоиска. Там и ответили, что не лезьте… И в личке тогда же пара обсуждений было.
                          p.s. Ровно 5 лет назад)


  1. crwin
    22.10.2015 20:14

    Вся эта история с Кинопоиском конечно же печальная. Но лично для себя я уже всё решил и сделал — полностью переехал со своими тысячами оценок и кучей папок на IMDb. Ну нет у меня уже никакого доверия и хоть какой-то заинтересованности в сайте после кучи подобных выходок и издевательств.
    Когда переносил оценки (а для некоторых это надо было делать вручную) уже тогда я тоже приметил изменения рейтинга не в лучшую сторону. Да и зачем вообще надо было трогать годами отточенный механизм…


  1. Magnum72
    22.10.2015 20:32
    +12

    Для меня кинопоиск теперь мертв


  1. marc13
    22.10.2015 20:48
    -1

    Рейтинг в зелёном боксе — ожидаемый для вас. Оранжевый — без механизма рекомендаций.


    1. Kanick
      22.10.2015 21:09

      Шутите? Вы так поосторожней, а то заставили меня на секунду дрогнуть. Со всей этой персонализацией сегодня, когда у разных пользователей вид страницы может радикально различаться…


      1. marc13
        22.10.2015 21:14

        Простите, не разобрался до конца. Вот: «Рейтинг фильма в Топ-250 отличается от рейтинга на странице фильма. Это происходит потому, что в топе используются специальные механизмы, препятствующие накрутке рейтинга недобросовестными пользователями.» Т.е. оранжевое идёт по другому механизму, о чём написано внизу www.kinopoisk.ru/top. А зелёный без обработки. Фух. Ещё раз простите!


        1. Kanick
          22.10.2015 21:45

          Нет, вы все поняли неправильно. Эта надпись там была, еще когда нового сайта с его рейтингами в помине не было. Процитирую пост: «Не исключаю, что вскоре обновится и старый топ, — может, он держится только потому, что алгоритм расчета рейтингов в нем отличается от алгоритма на страницах фильмов («в топе используются специальные механизмы, препятствующие накрутке рейтинга недобросовестными пользователями»), и этот алгоритм корректирует не новый, а старый рейтинг (в основном, в пределах пары сотых долей)». В зеленом боксе раньше был старый рейтинг, который отличался от скорректированного для нужд Топ-250 в пределах двух сотых (см. снимок из веб-архива), он не имеет ничего общего с новым.


          1. marc13
            22.10.2015 22:22

            Вечер четверга, чего ещё ожидать? :)


  1. Lonsdaleite
    22.10.2015 21:31
    -2

    Я считаю, что не так уж и плохо, что фильтр по числу оценок сместили. Может быть, 70000 и многовато, но уж точно лучше, чем 500. Странно видеть в топе фильмов всех времен то, что оценило меньше тысячи человек.


    1. Kanick
      22.10.2015 23:08
      +6

      На практике — отнюдь не лучше. В классическом Топ-250 фильмов, оцененных менее чем 5000 людьми, и не было, менее чем 10000 — несколько. В классической формуле учитывается близость к этому порогу, отрезая совсем редкие таким образом. А фильтр в 70000 отрезает больше половины всех фильмов в Топ-500. Он отсеивает все, что не массово.


  1. dom1n1k
    22.10.2015 21:51
    +10

    Вот если в спорах по поводу дизайна КП я имею мнение где-то посередине (оба варианта имеют ±), то за покореженный рейтинг надо отбивать руки по самую шею. Рейтинг это такая штука, репутация которой строится годами. Он должен быть стабильным, прозрачным, предсказуемым, хранить преемственность как самую большую ценность. Ну а теперь рейтинг они фактически убили. То что есть сейчас — это не рейтинг, это просто циферки-мишура, как на тысячах других сайтов. Складывается ощущение, что Яндекс попытался купить только домен и адиторию — а на сам сайт ему на самом деле было положить.


  1. marc13
    22.10.2015 21:55

    Попытался проанализировать Интерстеллар. Оценка 9,409 была у него 06.11.2014 в 23:50, потом шла на убыль. Количество оценок на странице 249 470, в истории 271 482. Далее: Леон. На 11.11.2014 8,792. Количество 275 644 / 319 856. Рейтинг 9,2 был в 8 году. Это я к чему? Возможно и нет никакого заговора, а они просто сломали считалку? Ведь просели фильмы с большей историей, а оценки у них были высокие в начале, а потом шли вниз.



  1. zelenin
    22.10.2015 21:57
    -4

    после запуска новой версии с онлайн-просмотром и изменененным рейтингом фильмов первой мыслью было «похоже ввели повышающий коээфициент для доступных к онлайн-просмотру фильмов». Ну согласитесь, глупо выкатывать онлайн-просмотр и не стимулировать людей к промотру их за деньги.


  1. faiwer
    22.10.2015 22:30
    +4

    Привык к старому рейтингу кинопоиска. Выработал собственную меру оного. От оценки нелюбимых мною жанров отнимаю 1-2, от оценки слабых, но весьма популярных, жанров отнимаю 1-2, от артхауса отнимаю 0.5-1 и получаю примерно ту оценку, которую поставил бы и сам. Многократно убеждался в этом. Смотрю описание к фильму, трейлер. Они влияют на ожидания от картины. Смотрю на рейтинг. Если в итоге зацепило — смотрю сам фильм. В конечном счёту обязательно «на горячую» выставляю свою оценку. И практически всегда она вписывается в вышеописанную меру. Из чего делаю вывод, что относительно меня, старый рейтинг очень хорошо отточен. А это очень удобно.

    Где то прочитал про то, что немалая часть оценок попросту не учитывается. Вспомнил бесконечную череду отзывов с 10-ой на весьма посредственные фильмы и 2-3-ой за достойные, но в чём-то спорные, хорошо понимаю почему. Действительно зачем учитывать голоса людей, у которых в карте голосов сплошные 10-ки и 2-ки. Предположил, что ребята из кинопоиска лепили свой рейтинг не втупую, а используя правильные наработки из мат. статистики и теории вероятности. Это бы объяснило то, почему рейтинг так хорошо работает. И меня совершенно не смущает, что, возможно, мои собственные голоса идут в утиль, просто потому, что мне от них нужен только удобный доступ к ним. Чтобы я мог скинуть ссылку на свой профиль кому-нибудь, или легко определить что же подсказать человеку. Кстати говоря как это сделать на новом сайте? Раньше я мог легко открыть свои «8-ки» и «9-ки» и выдать на гора дюжину хороших фильмов, красочно описав за что они мне понравились. А теперь что? О, смотри какой красивый постер на пол экрана, Вася, мне этот фильм не понравился, полный отстой, но т.к. я посмотрел его недавно он затмит мне полэкрана. Погоди, Вася, я ещё 15 минут покручу скроллом эти огромные постеры и обязательно найду что бы тебе посмотреть.

    После того как увидел новый рейтинг «Зелёного слоника», перестановки в ТОП-е, и разительно выросший максимум оценок (раньше было 3 фильма > 9, а сейчас? кошмар) и приуныл. После вашей статьи так и вовсе потерял веру в совесть и компетентность текущих управленцев (полагаю, что разработчиков винить не в чём, в yandex-е работает множество очень мозговитых ребят, чего не скажешь про манагеров и управленцев).


  1. NYMEZIDE
    23.10.2015 08:48
    +2

    Зеленый слоник — 9.1 рейтинг. Кинопоиск мертв.


    1. Vnr
      23.10.2015 14:11

      Со слоником как раз всё понятно — люди устроили флешмоб с накруткой его рейтинга десятками в знак протеста на смену дизайна.


      1. Kanick
        23.10.2015 14:27
        +1

        В очередной раз цитирую пост, а то люди путаются:

        а также скандальные 8,2 балла вместо 4,8 у треш-фильма «Зеленый слоник» (а после флешмоба пользователей, которые увидели это и решили довести до абсурда, — уже 9,1)

        Не мы начали эту войну.


  1. Aclz
    23.10.2015 12:15
    +1

    Вот думаю, уже писать наколенный скрипт по переносу оценок на IMDb, или дождаться, когда кто-нибудь другой запилит.


    1. fixx
      23.10.2015 13:19
      +4

      1. Aclz
        23.10.2015 13:49

        Спасибо!