Проблематика


Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.

Однажды на Кинопоиске я наткнулся на незнакомый фильм. Это оказался «Зеленый Слоник» - пресловутая лента эпохи VHS. Те, кто слышали про него, могут понять впечатления, которые я ощутил после прочтения странички об этом фильме на Википедии…


Но дурацких фильмов пруд пруди и стоит ли им вообще уделять хоть какое-то внимание? А вот рейтинг этого фильма оказался аномально высоким. И это очень удивило, ведь как такой откровенный кинематографический «шлак» набирает рейтинг выше среднего(по всем фильмам).

И вот я, полон скептицизма и недоверия к Яндексу системе рейтингования, вооружился инструментами для анализа и визуализации данных на основе python стека (sklearn, pandas, matplotlib, numpy) и решил разобраться почему у подобных фильмов могут появляться приличные рейтинги. Под катом вы найдёте интересные и неочевидные выводы о современном (и не очень) кинематографе, а также много иллюстраций к ним.

Данные в первую очередь


Итак, начинать надо с поиска данных, которые мы собственно и собираемся анализировать. Конечно, не очень хотелось собирать данные вручную, а хотелось сразу сосредоточиться именно на их анализе. Поэтому я тут же начал искать нужный датасет в интернете. Нашёл его в том месте, куда стоило заглянуть в первую очередь - на сайте kaggle.com. Это оказался датасет, содержащий более 5000 фильмов с известного сайта о кинематографе imdb. В признаковом описании каждого фильма содержалось немало категориальных и вещественных признаков, с которыми вы можете ознакомиться на страничке датасета страничке датасета.

Но так как мне изначально был интересен именно рейтинг Кинопоиска, поиск нужного датасета продолжился. АПИ Кинопоиска оказался закрыт, а писать парсер html страничек сервиса было лень не было времени из-за завала на учебе. Поэтому я решился и написал в службу поддержки Кинопоиска с просьбой предоставить датасет для исследования исключительно в академических целях. К большому удивлению мне даже ответили, но ответили негативно. В итоге найти ничего другого не удалось. Датасет с Кинопоиска я обязательно соберу, но не ранее, чем после сессии. А сейчас для анализа пришлось взять тот датасет IMDB. 

Из чего состоит статья


Исследование найденного датасета разделилось на две объёмные части:

  1. Обучение алгоритма предсказания (рейтинг фильма является целевой меткой)
  2. Поиск интересных и нетривиальных корреляций в данных

В данной статье я хотел бы уделить больше внимания именно второй части исследования, но лишь замечу, что в первой части я пробовал обучать большое количество разных моделей. Точность предсказания, которой удалось добиться с помощью градиентного бустинга составляет 0.4 балла (mse ошибка) по шкале IMDB. Но процесс построения предсказательной модели заслуживает отдельной статьи, а в этой предлагаю сосредоточиться на втором пункте.

Начнём


Вторую часть своего исследования я начал с того, что взял алгоритм линейной регрессии с lasso регуляризацией, обученный в первой части и построил диаграмму весовых коэффициентов признаков. Давайте взглянем на неё:

 
Столбцы «Режиссер», "[123] Актёр" соответствуют количеству лайков на Facebook у соответствующих личностей. «Формат» — это соотношение сторон картинки. «Лица» — это интересный вещественный признак, отражающий количество лиц на постере фильма. Значение остальных признаков очевидно. На данной диаграмме можно отметить несколько интересных моментов:

  • Длительность фильма даёт положительный вклад в рейтинг фильма(видимо длинные фильмы лучше заходят зрителям)
  • Год даёт отрицательный вклад (то есть чем новее фильм, тем больше вероятность, что рейтинг окажется низким)
  • Количество лиц на постере тоже даёт негативный вклад
 
Последний пункт у меня, как у поклонника фильма «Отель Гранд-Будапешт», вызвал негодование, но с алгоритмом не поспоришь.

Жанр


Теперь давайте взглянем на, пожалуй, главный признак киноленты — «Жанр».





На первой диаграмме отображена первая топ десятка жанров, на второй жанры с 11 по 20 место по среднему рейтингу.

Оказывается наибольший рейтинг набирают документальные, биографические и исторические фильмы. В свою очередь с большим отрывом наименьший рейтинг набирают фильмы из жанра ужасов.

Страна производства


Достаточно интересный результат можно наблюдать на диаграмме, отражающей средний рейтинг фильма из различных стран. Давайте рассмотрим топ шестерку стран по среднему рейтингу:



Как видим наиболее рейтинговые фильмы (в среднем) снимают в Великобритании, после которой идёт Франция, а вот Австралия на третьем месте стала весьма интересной неожиданностью. Лично мне трудно было сходу вспомнить хоть какой-то высокорейтинговый фильм из Австралии. Погуглив, удалось выяснить, что недавно вышедший фильм «Безумный Макс: Дорога ярости». А вот то, что американцы, заняли место вне топ тройки, весьма удивляет. 

А теперь давайте взглянем на финансовую составляющую — на затраты каждой из стран на своё кинопроизводство:


Тут всё вполне ожидаемо, США лидирует с огромным отрывом, правда это не состыкуется с предыдущей диаграммой. Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают. Хотя никто не отрицает, что они могут брать не качеством, а количеством.

Время


Теперь давайте рассмотрим как разные признаки фильмов зависят от времени. На данном графике отображается средний рейтинг фильмов в какой-то момент времени:



Можем увидеть, что средний рейтинг фильмов растёт обратно пропорционально году выпуска фильма. 

В свою очередь этот факт не состыковывается с содержанием следующего графика:



На данном графике отображена динамика изменения среднего бюджета фильма. Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.

Также весьма интересную картину дала зависимость средней длительность фильма от времени:


Можно видеть, что самые длительные фильмы снимали в 70е годы. Это очень трудно поддаётся объяснению и можно быть уверенным, что никто точного ответа на это не знает. Можно лишь предположить, что в 70е годы видео- и аудиоаппаратура получила серьёзное развитие, в то же время у режиссеров и сценаристов было море идей и поэтому им было трудно остановить поток мыслей. А в наше время уже снято настолько много фильмов, что уже трудно придумать что-то новое и поэтому фильмы делают короче.

Выводы


Как видим Data Mining исследование даёт весьма интересные результаты и могут быть использованы для анализа различных текущих процессов в одной из самых динамичных и быстроразвивающихся индустрий мира. Хорошим примером использования этих зависимостей на практике является сериал «Карточный домик». О том, как компания Netflix подбирала режиссеров и актеров с помощью методов анализа данных вы можете почитать здесь.
Поделиться с друзьями
-->

Комментарии (26)


  1. miptgirl
    23.12.2016 17:52
    +3

    Спасибо за статью!


    Может быть, пригодится моя статья на хабре про то, как парсить КиноПоиск: https://habrahabr.ru/post/280238/


    Кроме того, у меня остался dataset и сырые html-ки (правда, он был собран полгода назад и не содержит последние новинки). Если интересно, могу поделиться для дальнейших изысканий :)


    1. yurij_volkov
      24.12.2016 00:46

      Ваша статья и впрямь может облегчить затею с парсингом, спасибо!

      А датасет состоит только из фичей указанных в статье? Я был бы очень благодарен за возможность поиграться с ним :)


      1. zelenin
        24.12.2016 01:42

        а так http://kinopoisk.cf/?


        1. yurij_volkov
          24.12.2016 02:06

          С этим сервисом я разбирался где-то месяца два назад и тогда он толком не работал. В комментарии ниже, написали, что и сейчас он должным образом не функционирует.


  1. fivehouse
    23.12.2016 18:43
    -1

    Попробуйте 3 последних графика сделать в 3х мерном пространстве и в виде сглаженных гистограмм изменяющихся по годам. Да, а стоимость каких либо объектов (у вас — бюджет фильма) всегда указывают на логарифмической шкале.


  1. A3a
    23.12.2016 19:07

    У меня ощущение, что веса коэффициентов линейной регресси сформировались по большей частью «классическими» фильмами (напр. Побег из шоушенка, Зелёная миля, Список Шиндлера), судя по бОльшим весам длительности и года, часто такие картины длятся 3 часа. Я бы попробовал исключить их и посмотреть как поведут себя другие коэффициенты (может и добавить новые, например возраст главного актёра в момент съемок)


  1. ternaus
    23.12.2016 19:25

    Я бы еще Россию добавил на график:


    средний рейтинг фильма vs страна


    И добавил начало координат, а то может сложиться впечатление, что в Великобритании фильмы в 4 раза лучше чем в Канаде.


    image


    1. yurij_volkov
      24.12.2016 00:52
      +1

      К сожалению исследуемый датасет не является репрезентативными относительно российского кинематографа, поэтому для его исследования придётся собирать данные отдельно


  1. Rascko
    23.12.2016 20:01

    Интересно было бы посмотреть на изменения в графиках, если фильтровать входные данные: например, отсечь фильмы, рейтинг которых определен менее, чем сколькими-то просмотрами. Потому что, например, в жанре документальных фильмов ни один, из тех, кто оценен на строгую 10, не имеет больше 40 голосов, а в среднем имеет меньше 10. Практически та же ситуация — с фильмами, оцененными на единицу, там, правда, разнообразие вносят два фильма про Джастина Бибера.

    Для своих рейтингов, кстати, имдб фильтрует на уровне 1500 голосов.


    1. Rascko
      23.12.2016 20:14

      Кстати, интересно, что за двухсотмилионные фильмы у Великобритании (и у Канады)? Или расчеты учитывали совместное производство — например, какой-нибудь «Гарри Поттер» считался английским фильмом, а «Человек из стали» канадским?


    1. atikhonov
      23.12.2016 22:21

      Вот еще пример точечной визуализации и фильтрации по разным параметрам фильмов:
      http://shiny.rstudio.com/gallery/movie-explorer.html

      Может и автору пригодится подобная идея.


  1. iLeg0
    23.12.2016 20:15

    API Кинопоиска можно же юзать через этот сервис — http://kinopoisk.cf


    1. savostin
      23.12.2016 20:37

      Пока нельзя


      1. alexkuzko
        24.12.2016 10:15

        Более того, проект полностью стал платным… Грусть. Теперь проще собирать свою базу, чем рассчитывать на других. Либо заплатить и вылить все. В любом случае, грусть и печаль.


  1. encyclopedist
    23.12.2016 22:25
    +2

    Нужно учитывать, что мы имеем дело с типичным случаем ошибки выжившего. Если выборка фильмов за последние лет 20 более-менее репрезентативна (в базу попадает большинство фильмов, вышедших в прокат), то за прошлые десятилетия мы имеем только лучшие (или наиболее популярные по другим причинам) фильмы. Отсюда могут быть всякие странные зависимости от года выпуска.


    1. encyclopedist
      23.12.2016 22:40
      +1

      А скачок длительности фильмов вероятно связан с крушением "Студийной системы" и массовым распространением телевидения.


  1. Alex_Belyaev
    24.12.2016 00:58

    Бюджеты фильмов на одном графике с учетом инфляции и валют на текущий момент я правильно понимаю?


    1. yurij_volkov
      24.12.2016 00:59

      Нет, бюджеты фильмов указаны без учёта инфляции


    1. Rascko
      24.12.2016 11:52

      Для бюджетов такое приведение менее актуально, чем для сборов — до начала 2000-х снято не так много фильмов, которые имели большой, по нынешним меркам, бюджет, до начала 90-х — и того меньше (вроде бы только «Клеопатра» и «Супермен» стоили больше 200 миллионов в нынешних деньгах). Вот для сборов это актуально — например, только один из фильмов, снятых после 2000 года имеет сборы больше 2 миллиардов, поправленных по инфляции.


  1. geher
    24.12.2016 12:49

    > Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают.

    Вполне логично. Деньги идут на спецэффекты и формальное «качество» фильма, что идет в ущерб реальному качеству.
    По сути ведь за редким исключением фильмы производства США (особенно последнее время) являются добротными боевиками, триллерами и проч, но не имеющими притом почти ничего примечательного, выделяющего фильм из общего ряда. Иначе говоря, действие в ущерб здравому смыслу и глубине мысли, ибо развлечение, а не «чтоб подумать».
    А отдельные шедевры никак не могут переломить общей тенденции и существенно сместить общий рейтинг.
    Кстати, все это вполне логичным образом согласуется и с последующими результатами.

    > Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.

    Техническая сложность фильмов растет (спецэффекты, оборудование), вот и расходы растут.
    А качество падает от все возрастающего перекоса в сторону спецэффектов и формального технического качества (FullHD, 4k, 8k...).


    1. Rascko
      24.12.2016 15:05
      +2

      >>Деньги идут на спецэффекты и формальное «качество» фильма, что идет в ущерб реальному качеству.

      А вот это тоже может, кстати, быть ошибкой выжившего. Какой процент из фильмов 30-40-50-60-70 годов сейчас известен массам? Да копеечный. И в памяти остаются лучшие, и пересматриваютя-перепоказываются, опять же — лучшие. А значительная часть фильмов, которые были «ну так себе», банально забывается. И тогда тоже могли вполне себе быть какие-нибудь дорогущие «пеплумы», например, которые, в итоге, ничем не запомнились и сейчас известны только очень узким спецам.


      1. geher
        24.12.2016 17:24
        -1

        Несомненно, хорошие фильмы всегда были в меньшинстве.
        Только есть такая тенденция нехорошая.
        Раньше в нехорошие попадала только откровенная халтура. А если было старание с технической стороны (именно старание, а не объемы этой самой технической стороны), то и сценарий был как правило хорош, и режиссура.
        А теперь, в эпоху компьютерных спецэффектов, часто видно, что когда фильм делали, очень старались, выкладывались, не халтурили, а фильм все равно получается ни о чем. И все похоже на то, что все оно постольку, поскольку выкладывались только на технической стороне вопроса, забывая и о сюжете, и о игре актеров.
        Есть и другой момент.
        Количество выпускаемых фильмов заметно возрасло, а количество хороших притом столь же заметно уменьшилось относительно предыдущих годов. Причем это практически во всех странах.
        А если и появляется сейчас что-то действительнго хорошее, то в прокате его редко когда увидишь. Я уже и в кинотеатр на премьеры ходить перестал, ибо надоело тотальное разочарование почти во всех новых фильмах вне зависимости от их рейтинга.


        1. Rascko
          24.12.2016 21:52

          выкладывались, не халтурили, а фильм все равно получается ни о чем.
          Такое бывает, но не так часто — разве что в случае, когда расчитывают на раскрученную франшизу. Но не стоит путать это с тем, что, мол «фильмы все про пыщь-пыщь» — значительная часть пеплумов или костюмных драм 30-50-х — про абсолютно такое же пыщь-пыщь.

          Количество выпускаемых фильмов заметно возрасло
          Вот тут, к сожалению, не могу ничего сказать, т.к. нету доступа к статистике выхода фильмов по годам — статистика ИМДБ тут тоже некорректна, т.к. включает в себя, с одной стороны «не все» по ранним фильмам, с другой стороны — заполнена телефильмами, «прямо на двд»-релизами и т.д.


  1. kraidiky
    24.12.2016 15:46

    Если возьмёшь рейтинг кинопоиска, то есть такой интересный признак — на сколько рейтинг кинопоиска отличается от IMDB. Чисто эмпирически я выяснил, что мне, например, имеют гораздо больше шанс понравиться фильмы, у которых отрыв 0,5 а фильмы, для которых рейтинг Кинопоиска выше рейтинга IMDB на 1 заходят вообще прям хорошо, даже если это, например 4,7 и 6 как у https://www.kinopoisk.ru/film/4137/

    Думаю может быть интересно посмотреть что русскому хорошо, а в мировом кинематографе смерть. :)

    Кроме того прям просится посмотреть изменение по времени жанрового состава фильмов. И отношение сборы/бюджет — ключевой признак для американского кинематографа по понятным причинам, на IMDB эти данные есть, хотя не знаю есть ли они в кагловском датасете.


    1. tibhar940
      24.12.2016 18:09

      А еще есть https://www.rottentomatoes.com/


  1. Evengard
    24.12.2016 20:22
    +1

    Падение качества в прошлые годы скорее всего более субъективно, чем кажется. Зритель стал более избалованным, ему уже то, что «прокатывало» в прошлые разы, нравится меньше.