В прошлой статье я рассказал, как безуспешно пытался применить алгоритмы коллаборативной фильтрации для практически ценной рекомендации фильмов. Однако в процессе экспериментов обнаружилось, что простое усреднение оценок фильма пользователями сервиса (рейтинг IMDB, Кинопоиска и т.д.) является очень неплохим предсказателем оценки фильма новым зрителем, что было продемонстрировано математически. Это, в частности, объясняет, почему все знают рейтинг Кинопоиска, а о рекомендациях Кинопоиска никто не слышал, хотя такой сервис у них есть.

Однако и у усредненных оценок (рейтингов) есть свои проблемы. Посмотрим, как выглядит топ фильмов по рейтингу в киносоциальной сети Letterboxd:

Многие из этих фильмов не знакомы даже киноманам. Например, на 18 месте находится фильм "The Human Condition III: A Soldier’s Prayer" с рейтингом 4.52 и 12K оценками, а на 29 - "The Lord of the Rings: The Return of the King" (третья часть "Властелина колец") с рейтингом 4.48 и 792К оценками. Первый фильм имеет немного более высокий рейтинг, но он в 70 раз менее популярен. Хотелось бы построить такой список фильмов, который бы отражал как рейтинг фильма, так и его популярность одновременно.

Так я и пришел к идее "композитного" рейтинга. Рейтинг умножается на некую производную от популярности фильма, повышая рейтинг, если фильм популярнее среднего, и понижая в обратном случае. Можно сказать, что популярность фильма становится мерой "достоверности" его рейтинга. Композитный рейтинг используется только для сортировки фильмов, отражая сравнительную предпочтительность фильма для просмотра. В соответствии с этим рейтингом, фильмы из примера выше перемещаются с 18 на 780 место и с 29 на 10 место соответственно.

Эксперименты с композитным рейтингом оказались настолько интересными, что я решил создать небольшое приложение для поиска фильмов с его помощью. Я назвал его CineFilter.

CineFilter - это дополнение к англоязычной киносоциальной сети Letterboxd. С его помощью вы можете выбирать фильмы, соответствующие различным критериям (режиссер, актер, комбинации жанров, год выпуска и т.д.), и фильмы будут отсортированы по их композитному рейтингу.

Этот сервис можно рассматривать как IMDB Top 250, который можно отфильтровать множеством различных способов. CineFilter содержит более 25000 фильмов с самым высоким композитным рейтингом.

Примеры возможных поисков:

Научная фантастика 80-х и 90-х годов

Лучшая анимация, начиная с 2020 года

Лучшая адаптация Бэтмена, не анимация

Лучшие фильмы на французском за последнее десятилетие

Даже романтические комедии не выглядят банально с композитным рейтингом

В Letterboxd жанры фильмов проставлены очень адекватно, поэтому поиск по жанрам может быть очень интересным. Например:

Фильмы с жанрами, как у фильма "The Fall" (2006), но не анимация

Кроме сортировки по композитному рейтингу, можно отсортировать фильмы по популярности, обычному рейтингу и дате выхода.

Если сервис будет пользоваться популярностью, я планирую добавить больше критериев для поиска, например: оператор, сценарист или студия (возможность увидеть фильмы A24 или Miramax в одном списке и отфильтровать их по жанрам). Также было бы очень интересно добавить фильтры по кинофестивалям, но, к сожалению, этой информации в Letterboxd нет, и не ясно, как это реализовать.

Приложение является Progressive Web App и может быть установлено как "родное" на все платформы, включая мобильные, через меню браузера "Add to Home screen" и аналогичные.

Планирую обновлять данные в приложении раз в месяц.

Я создал форум в Discord, где можно оставлять пожелания и сообщать об обнаруженных ошибках. Также надеюсь прочитать комментарии и пожелания здесь.

Комментарии (32)


  1. aanovik42
    01.08.2023 07:56

    Очень неплохо, давно напрашивалось на самом деле. Посмотрю, как оно будет на практике. Одно пожелание: сделайте вменяемый title для главной (а в идеале ещё и динамический, чтобы учитывал выбранные фильтры), а то сейчас при добавлении в закладки выглядит очень непонятно. (Хотя может вы специально так задумали из-за Progressive Web App и краткости, ничего об этом не знаю, но на ПК смотрится глуповато.)


    1. ovsale Автор
      01.08.2023 07:56

      а как выглядит на ПК? у меня в закладках хрома просто CineFilter.


      1. aanovik42
        01.08.2023 07:56

        Так и выглядит. Ну вот представьте, я добавил закладку и наткнулся на неё через пару-тройку недель. Для меня CineFilter будет выглядеть примерно как jkljsdkfkgd, я даже не факт что вспомню, что это за сайт. То же самое про выдачу после применения фильтров. Все эти тайтлы в духе

        IMDb: Ratings, Reviews, and Where to Watch the Best Movies & TV Shows

        Feature Film, Animation, Adventure (Sorted by Release Date Ascending) - IMDb

        они всё же неспроста.


        1. ovsale Автор
          01.08.2023 07:56

          да я подумаю об этом в след обновлении. а вы просматриваете закладки периодически? я просто только если что-то конкретное ищу - и тут бы названия хватило.


          1. aanovik42
            01.08.2023 07:56

            Не столько просматриваю, сколько пытаюсь найти по ключевым словам. Грубо говоря, вот мне надо зайти на сайт, там что-то про поиск фильмов. Скорее всего я просто введу в строке браузера что-то вроде movies, и он покажет мне закладки с этим ключом. Второй вариант: я таки зайду в меню закладок, но ведь я по-прежнему не помню название сервиса. И опять-таки я буду ориентироваться на ключи в заголовке.

            Вообще я готов признать, что это слегка вкусовщина, но вот слепые тайтлы для результатов поиска — это уже явная проблема. Это прямо стандартный кейс "найти список фильмов по фильтру и возвращаться к нему по мере необходимости", сейчас пользователю придётся руками вводить заголовок для каждой такой закладки.


            1. ovsale Автор
              01.08.2023 07:56

              те вы планируете сохранять в закладках несколько разных поисковых запросов?


              1. aanovik42
                01.08.2023 07:56
                +1

                Да, для меня это наиболее логичный сценарий.


                1. ovsale Автор
                  01.08.2023 07:56

                  понял. спасибо


  1. LLIypLLIuk
    01.08.2023 07:56

    а может ещё ввести какие-то поправки по количеству проголосовавших на год выпуска?

    На вашем же примере, получается, что властелин колец, который является культовым фильмом, которому 20 лет имеет намного меньшее(34к портив 67) количество проголосовавших, чем теже паразиты 2019 года выпуска.

    А это не значит что властелин колец любят в 2 раза меньше чем паразиты или какойнить мульт про человека паука - это только значит что на момент выхода фильма никто не тыкал в голосование :)


    1. ovsale Автор
      01.08.2023 07:56

      вы приводите число "фанов" фильма. число проголосовавших появляется в попапе и оно 793к против 2043к.

      я писал что за основу берется всеже рейтинг, а популярность незначительно его корректирует. ну и конечно композитный рейтинг не идеален. просто мне эмпирически показалось что так получается "адекватно".


    1. Vsevo10d
      01.08.2023 07:56

      Подход автора пригодился бы, например, для игр в Стиме, где самые высокие оценки аудитории ака Крайне положительные, как правило, у всяких визуальных-новелл-раздень-синеволосую-школьницу, и эти оценки бы нивелировались ограниченной нишевой популярностью. В мире кино, где есть как потоковый продукт про супергероев, так и интересные чисто игрой актёров и постановкой фильмы (та же первая Дюна, где вообще ничего не происходит, но как же вкусно снятая), это однобоко. Не так много переоцененных нишевых фильмов (те же паразиты и крестные отцы, которые все равно в этой приложухе в топе) и не настолько интересны большинство популярных франшиз.


      1. ovsale Автор
        01.08.2023 07:56

        я вижу вы тоже писали статью тут на тему кино. свое теоретическое обоснование я изложил в предыдущей статье. там в комментариях впрочем адекватная критика что я не рассмотрел самые передовые алгоритмы.


  1. Vsevo10d
    01.08.2023 07:56
    +4

    Для искушенного зрителя - все так же бесполезно. Вы добавляете популярности к рейтингу - получаете мейнстримные фильмы.

    Вот я включил фильтры +драма -комедия:

    Hidden text

    Тягучая атмосферная драма из золотой классики кино, криминальный триллер со сплетением интриг (ремейк от того же Скорсезе, кстати), мой любимый артхаус про французских гопников и Король Лев? Фильмы с абсолютно разным настроением под зонтичным термином "драма"?Да всякие статейки "2010 лучших триллеров 2010-х" и то выдадут более однородную подборку. Ради уточнения в кинопоиске есть галочки "только выбранные жанры" и "любой из выбранных жанров", а у вас нет.

    Смысл усовершенствованного поиска как раз в углублении и расширении функционала, чтобы выцеплять неплохие фильмы не на слуху, типа "Без резких движений" или "Закатать в асфальт". Крестные отцы и прочие Зелёные мили и так есть во всех рейтингах (и есть подозрение, что это тупо положительная обратная связь, Шоушенк ну не лучший фильм всех времен и народов).

    Так что идея неплоха и симпатично реализована, я всегда уважаю проделанный труд, но лично мне как киноману уже бесполезна.


    1. ovsale Автор
      01.08.2023 07:56
      +2

      как киноман не скажу что это приложение закрыло все мои потребности. конечно нет. это лишь еще один инструмент для осознанного поиска.
      про драму: драма это очень широкий жанр. хотите его практически использовать добавив драму - убирайте жанры типа экшн итд. ну и является ли король лев драмой? да является. вообще я почти всегда убираю анимацию при поиске.
      опять же вы можете включить сортировку по обычному рейтингу если не нравится этот.
      и скажу так: нет обьективно хорошего или плохого фильма - но есть рейтинг IMDB. все остальное "субьективно" какие бы мы ни были "киноманы". и сколько бы фильмов каждый из нас посмотрел и на сколько бы фестивалей сьездил)


  1. mikegordan
    01.08.2023 07:56

    Попытался найти фильмы потипу "Треугольник", долго крутил разные фильтры и комбинации , вообще ничего не смог приличного найти.


    1. ovsale Автор
      01.08.2023 07:56

      если это треугольник с одним жанром хоррор. тут да даже не знаю что посоветовать кроме как по режиссеру зайти.


  1. SBortsov
    01.08.2023 07:56
    -2

    На дворе шел 2023, времена нейросетей и автоматических переводчиков. Где русская версия сайта КАРЛ? ГДЕ?


    1. ovsale Автор
      01.08.2023 07:56
      +1

      перевести что? названия фильмов, имена актеров? для реализации русскоязычной версии нужно брать данные из кинопоиска. а там нет списка топовых по разными критериям фильмов. соответственно пока только Letterbox, пока только английский.


    1. rapidstream
      01.08.2023 07:56
      +1

      На дворе шел 2023 год, выучите уже наконец английский язык. Если вы в ИТ, пригодится. Если нет, тоже неплохой скилл, "КАРЛ".


  1. vba
    01.08.2023 07:56
    -2

    Спасибо за интересный сервис. Лично мне не хватает фильтра/флажка "без повесточки". Хотя косвенно можно фильтровать по "до 2015 г", но это не точно.


    1. ovsale Автор
      01.08.2023 07:56

      приведите примеры фильмов "с повесточкой"


      1. vba
        01.08.2023 07:56
        -2

        Во-первых, пропаганда однополых отношений. Из сериалов: "Ведьмак", "Корпорация Амбрелла", итд, из фильмов "Вечные". Например "Кит" или "Игра в имитацию" не подпадают, имхо, под "повесточку". Тут правило простое, берем заднеприводного перса, заменяем его на переднеприводного, если замена ни на что не влияет, значит это повесточка.

        Во вторых расовые квоты, 50% сильных и независимых, 33% эфиопов, 17% азиатов, итд. Ну и тоже всякий мусор навеянный БЛМ, тут тоже "Ведьмак" очень показательный пример.

        Я заметил странную корреляцию между просадкой качества сценария и наличием повестки. Обратнопропорциональная связь.


        1. ovsale Автор
          01.08.2023 07:56

          правило интересное. вроде по статистике каждый 50й человек - гей. так что если в фильме/фильмах подобное соотношение то типа не повестка. но это так - мои размышления не больше.


          1. vba
            01.08.2023 07:56
            -1

            Да не могу с вами не согласиться. В данном случае, статистика наука изменчивая, в сша данный показатель продолжает увеличиваться.


            1. ovsale Автор
              01.08.2023 07:56

              ну логично также что люди стали меньше скрывать при опросах


        1. dimitrii_z
          01.08.2023 07:56

          Вы Ведьмака читали вообще? Помните про Цири и Мистле?

          Геев/лесби/прочих вроде не стало больше, их стало больше слышно и всё. Опять же если вас напрягает это или ещё что-то типа расового разнообразия (расизм завезли) - открывайте список актёров (проверить расы) и обзоры и проверяйте по ключевым словам (проверить про геев). Опять же всегда можно спросить чатгпт, есть ли в таком-то фильме однополые отношения, ага.


          1. vba
            01.08.2023 07:56

            Ну конечно помню. Имхо, эта часть повествования о жизни в банде крыс, выглядит очень плохо проработанной и притянутой за уши. Видимо Сапковскому не хило так занесли и он впендюрил это в последний момент. Таже повесточка, уберите связь Цириллы и Мистле и абсолютно ничего не изменится.

            Опять же если вас напрягает это или ещё что-то типа расового разнообразия (расизм завезли)

            Нет меня напрягает отсутствие ума у шоуранеров, сценаристов и прочих киноделов. Возьмем например Робина Гуда - Принца Воров 1991 года. Посмотрите на персонажа Моргана Фримена, там его арка просто вылизана, и никаких вопросов как афро-сарацын мог очутиться на альбионе в XII веке нет. А теперь возьмите сериал про Екатерину Великую, с князем Ростовым и Орловым и массовкой из русских афро-крестьян.

            открывайте список актёров (проверить расы) и обзоры и проверяйте по ключевым словам (проверить про геев)

            Данный подход не выглядит продуктивным, имхо. А вот чатгпт, это стоит опробовать в деле :) , но ему наверное нужно будет скормить кусок сценария.


  1. savostin
    01.08.2023 07:56

    А почему вдруг Letterbox, а не тот же TMDB, откуда они собственно данные и берут? Там и русский есть, как товарищ выше заметил, если не ошибаюсь.


    1. ovsale Автор
      01.08.2023 07:56

      Letterboxd уважаемый в киноманских кругах ресурс. И с него легко скачать информацию. TMDB я не пользовался. вообще он возможно подходит. и поиск там продвинутый есть. но сделан он плохо на мой взгляд. впрочем это на мой взгляд.


  1. honor8
    01.08.2023 07:56

    Как добавить фильм?

    Rain Erases Everything, The Und der Regen verwischt jede Spur, 1972, ФРГ


    1. ovsale Автор
      01.08.2023 07:56

      никак. топ 25000 фильмов только