Проблематика
Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.
Однажды на Кинопоиске я наткнулся на незнакомый фильм. Это оказался «Зеленый Слоник» - пресловутая лента эпохи VHS. Те, кто слышали про него, могут понять впечатления, которые я ощутил после прочтения странички об этом фильме на Википедии…
Но дурацких фильмов пруд пруди и стоит ли им вообще уделять хоть какое-то внимание? А вот рейтинг этого фильма оказался аномально высоким. И это очень удивило, ведь как такой откровенный кинематографический «шлак» набирает рейтинг выше среднего(по всем фильмам).
И вот я, полон скептицизма и недоверия к
Данные в первую очередь
Итак, начинать надо с поиска данных, которые мы собственно и собираемся анализировать. Конечно, не очень хотелось собирать данные вручную, а хотелось сразу сосредоточиться именно на их анализе. Поэтому я тут же начал искать нужный датасет в интернете. Нашёл его в том месте, куда стоило заглянуть в первую очередь - на сайте kaggle.com. Это оказался датасет, содержащий более 5000 фильмов с известного сайта о кинематографе imdb. В признаковом описании каждого фильма содержалось немало категориальных и вещественных признаков, с которыми вы можете ознакомиться на страничке датасета страничке датасета.
Но так как мне изначально был интересен именно рейтинг Кинопоиска, поиск нужного датасета продолжился. АПИ Кинопоиска оказался закрыт, а писать парсер html страничек сервиса
Из чего состоит статья
Исследование найденного датасета разделилось на две объёмные части:
- Обучение алгоритма предсказания (рейтинг фильма является целевой меткой)
- Поиск интересных и нетривиальных корреляций в данных
В данной статье я хотел бы уделить больше внимания именно второй части исследования, но лишь замечу, что в первой части я пробовал обучать большое количество разных моделей. Точность предсказания, которой удалось добиться с помощью градиентного бустинга составляет 0.4 балла (mse ошибка) по шкале IMDB. Но процесс построения предсказательной модели заслуживает отдельной статьи, а в этой предлагаю сосредоточиться на втором пункте.
Начнём
Вторую часть своего исследования я начал с того, что взял алгоритм линейной регрессии с lasso регуляризацией, обученный в первой части и построил диаграмму весовых коэффициентов признаков. Давайте взглянем на неё:
Столбцы «Режиссер», "[123] Актёр" соответствуют количеству лайков на Facebook у соответствующих личностей. «Формат» — это соотношение сторон картинки. «Лица» — это интересный вещественный признак, отражающий количество лиц на постере фильма. Значение остальных признаков очевидно. На данной диаграмме можно отметить несколько интересных моментов:
- Длительность фильма даёт положительный вклад в рейтинг фильма(видимо длинные фильмы лучше заходят зрителям)
- Год даёт отрицательный вклад (то есть чем новее фильм, тем больше вероятность, что рейтинг окажется низким)
- Количество лиц на постере тоже даёт негативный вклад
Последний пункт у меня, как у поклонника фильма «Отель Гранд-Будапешт», вызвал негодование, но с алгоритмом не поспоришь.
Жанр
Теперь давайте взглянем на, пожалуй, главный признак киноленты — «Жанр».
На первой диаграмме отображена первая топ десятка жанров, на второй жанры с 11 по 20 место по среднему рейтингу.
Оказывается наибольший рейтинг набирают документальные, биографические и исторические фильмы. В свою очередь с большим отрывом наименьший рейтинг набирают фильмы из жанра ужасов.
Страна производства
Достаточно интересный результат можно наблюдать на диаграмме, отражающей средний рейтинг фильма из различных стран. Давайте рассмотрим топ шестерку стран по среднему рейтингу:
Как видим наиболее рейтинговые фильмы (в среднем) снимают в Великобритании, после которой идёт Франция, а вот Австралия на третьем месте стала весьма интересной неожиданностью. Лично мне трудно было сходу вспомнить
А теперь давайте взглянем на финансовую составляющую — на затраты каждой из стран на своё кинопроизводство:
Тут всё вполне ожидаемо, США лидирует с огромным отрывом, правда это не состыкуется с предыдущей диаграммой. Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают. Хотя никто не отрицает, что они могут брать не качеством, а количеством.
Время
Теперь давайте рассмотрим как разные признаки фильмов зависят от времени. На данном графике отображается средний рейтинг фильмов в какой-то момент времени:
Можем увидеть, что средний рейтинг фильмов растёт обратно пропорционально году выпуска фильма.
В свою очередь этот факт не состыковывается с содержанием следующего графика:
На данном графике отображена динамика изменения среднего бюджета фильма. Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.
Также весьма интересную картину дала зависимость средней длительность фильма от времени:
Можно видеть, что самые длительные фильмы снимали в 70е годы. Это очень трудно поддаётся объяснению и можно быть уверенным, что никто точного ответа на это не знает. Можно лишь предположить, что в 70е годы видео- и аудиоаппаратура получила серьёзное развитие, в то же время у режиссеров и сценаристов было море идей и поэтому им было трудно остановить поток мыслей. А в наше время уже снято настолько много фильмов, что уже трудно придумать что-то новое и поэтому фильмы делают короче.
Выводы
Как видим Data Mining исследование даёт весьма интересные результаты и могут быть использованы для анализа различных текущих процессов в одной из самых динамичных и быстроразвивающихся индустрий мира. Хорошим примером использования этих зависимостей на практике является сериал «Карточный домик». О том, как компания Netflix подбирала режиссеров и актеров с помощью методов анализа данных вы можете почитать здесь.
Комментарии (26)
fivehouse
23.12.2016 18:43-1Попробуйте 3 последних графика сделать в 3х мерном пространстве и в виде сглаженных гистограмм изменяющихся по годам. Да, а стоимость каких либо объектов (у вас — бюджет фильма) всегда указывают на логарифмической шкале.
A3a
23.12.2016 19:07У меня ощущение, что веса коэффициентов линейной регресси сформировались по большей частью «классическими» фильмами (напр. Побег из шоушенка, Зелёная миля, Список Шиндлера), судя по бОльшим весам длительности и года, часто такие картины длятся 3 часа. Я бы попробовал исключить их и посмотреть как поведут себя другие коэффициенты (может и добавить новые, например возраст главного актёра в момент съемок)
ternaus
23.12.2016 19:25Я бы еще Россию добавил на график:
средний рейтинг фильма vs страна
И добавил начало координат, а то может сложиться впечатление, что в Великобритании фильмы в 4 раза лучше чем в Канаде.
yurij_volkov
24.12.2016 00:52+1К сожалению исследуемый датасет не является репрезентативными относительно российского кинематографа, поэтому для его исследования придётся собирать данные отдельно
Rascko
23.12.2016 20:01Интересно было бы посмотреть на изменения в графиках, если фильтровать входные данные: например, отсечь фильмы, рейтинг которых определен менее, чем сколькими-то просмотрами. Потому что, например, в жанре документальных фильмов ни один, из тех, кто оценен на строгую 10, не имеет больше 40 голосов, а в среднем имеет меньше 10. Практически та же ситуация — с фильмами, оцененными на единицу, там, правда, разнообразие вносят два фильма про Джастина Бибера.
Для своих рейтингов, кстати, имдб фильтрует на уровне 1500 голосов.
Rascko
23.12.2016 20:14Кстати, интересно, что за двухсотмилионные фильмы у Великобритании (и у Канады)? Или расчеты учитывали совместное производство — например, какой-нибудь «Гарри Поттер» считался английским фильмом, а «Человек из стали» канадским?
atikhonov
23.12.2016 22:21Вот еще пример точечной визуализации и фильтрации по разным параметрам фильмов:
http://shiny.rstudio.com/gallery/movie-explorer.html
Может и автору пригодится подобная идея.
encyclopedist
23.12.2016 22:25+2Нужно учитывать, что мы имеем дело с типичным случаем ошибки выжившего. Если выборка фильмов за последние лет 20 более-менее репрезентативна (в базу попадает большинство фильмов, вышедших в прокат), то за прошлые десятилетия мы имеем только лучшие (или наиболее популярные по другим причинам) фильмы. Отсюда могут быть всякие странные зависимости от года выпуска.
encyclopedist
23.12.2016 22:40+1А скачок длительности фильмов вероятно связан с крушением "Студийной системы" и массовым распространением телевидения.
Alex_Belyaev
24.12.2016 00:58Бюджеты фильмов на одном графике с учетом инфляции и валют на текущий момент я правильно понимаю?
Rascko
24.12.2016 11:52Для бюджетов такое приведение менее актуально, чем для сборов — до начала 2000-х снято не так много фильмов, которые имели большой, по нынешним меркам, бюджет, до начала 90-х — и того меньше (вроде бы только «Клеопатра» и «Супермен» стоили больше 200 миллионов в нынешних деньгах). Вот для сборов это актуально — например, только один из фильмов, снятых после 2000 года имеет сборы больше 2 миллиардов, поправленных по инфляции.
geher
24.12.2016 12:49> Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают.
Вполне логично. Деньги идут на спецэффекты и формальное «качество» фильма, что идет в ущерб реальному качеству.
По сути ведь за редким исключением фильмы производства США (особенно последнее время) являются добротными боевиками, триллерами и проч, но не имеющими притом почти ничего примечательного, выделяющего фильм из общего ряда. Иначе говоря, действие в ущерб здравому смыслу и глубине мысли, ибо развлечение, а не «чтоб подумать».
А отдельные шедевры никак не могут переломить общей тенденции и существенно сместить общий рейтинг.
Кстати, все это вполне логичным образом согласуется и с последующими результатами.
> Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.
Техническая сложность фильмов растет (спецэффекты, оборудование), вот и расходы растут.
А качество падает от все возрастающего перекоса в сторону спецэффектов и формального технического качества (FullHD, 4k, 8k...).Rascko
24.12.2016 15:05+2>>Деньги идут на спецэффекты и формальное «качество» фильма, что идет в ущерб реальному качеству.
А вот это тоже может, кстати, быть ошибкой выжившего. Какой процент из фильмов 30-40-50-60-70 годов сейчас известен массам? Да копеечный. И в памяти остаются лучшие, и пересматриваютя-перепоказываются, опять же — лучшие. А значительная часть фильмов, которые были «ну так себе», банально забывается. И тогда тоже могли вполне себе быть какие-нибудь дорогущие «пеплумы», например, которые, в итоге, ничем не запомнились и сейчас известны только очень узким спецам.geher
24.12.2016 17:24-1Несомненно, хорошие фильмы всегда были в меньшинстве.
Только есть такая тенденция нехорошая.
Раньше в нехорошие попадала только откровенная халтура. А если было старание с технической стороны (именно старание, а не объемы этой самой технической стороны), то и сценарий был как правило хорош, и режиссура.
А теперь, в эпоху компьютерных спецэффектов, часто видно, что когда фильм делали, очень старались, выкладывались, не халтурили, а фильм все равно получается ни о чем. И все похоже на то, что все оно постольку, поскольку выкладывались только на технической стороне вопроса, забывая и о сюжете, и о игре актеров.
Есть и другой момент.
Количество выпускаемых фильмов заметно возрасло, а количество хороших притом столь же заметно уменьшилось относительно предыдущих годов. Причем это практически во всех странах.
А если и появляется сейчас что-то действительнго хорошее, то в прокате его редко когда увидишь. Я уже и в кинотеатр на премьеры ходить перестал, ибо надоело тотальное разочарование почти во всех новых фильмах вне зависимости от их рейтинга.Rascko
24.12.2016 21:52выкладывались, не халтурили, а фильм все равно получается ни о чем.
Такое бывает, но не так часто — разве что в случае, когда расчитывают на раскрученную франшизу. Но не стоит путать это с тем, что, мол «фильмы все про пыщь-пыщь» — значительная часть пеплумов или костюмных драм 30-50-х — про абсолютно такое же пыщь-пыщь.
Количество выпускаемых фильмов заметно возрасло
Вот тут, к сожалению, не могу ничего сказать, т.к. нету доступа к статистике выхода фильмов по годам — статистика ИМДБ тут тоже некорректна, т.к. включает в себя, с одной стороны «не все» по ранним фильмам, с другой стороны — заполнена телефильмами, «прямо на двд»-релизами и т.д.
kraidiky
24.12.2016 15:46Если возьмёшь рейтинг кинопоиска, то есть такой интересный признак — на сколько рейтинг кинопоиска отличается от IMDB. Чисто эмпирически я выяснил, что мне, например, имеют гораздо больше шанс понравиться фильмы, у которых отрыв 0,5 а фильмы, для которых рейтинг Кинопоиска выше рейтинга IMDB на 1 заходят вообще прям хорошо, даже если это, например 4,7 и 6 как у https://www.kinopoisk.ru/film/4137/
Думаю может быть интересно посмотреть что русскому хорошо, а в мировом кинематографе смерть. :)
Кроме того прям просится посмотреть изменение по времени жанрового состава фильмов. И отношение сборы/бюджет — ключевой признак для американского кинематографа по понятным причинам, на IMDB эти данные есть, хотя не знаю есть ли они в кагловском датасете.
Evengard
24.12.2016 20:22+1Падение качества в прошлые годы скорее всего более субъективно, чем кажется. Зритель стал более избалованным, ему уже то, что «прокатывало» в прошлые разы, нравится меньше.
miptgirl
Спасибо за статью!
Может быть, пригодится моя статья на хабре про то, как парсить КиноПоиск: https://habrahabr.ru/post/280238/
Кроме того, у меня остался dataset и сырые html-ки (правда, он был собран полгода назад и не содержит последние новинки). Если интересно, могу поделиться для дальнейших изысканий :)
yurij_volkov
Ваша статья и впрямь может облегчить затею с парсингом, спасибо!
А датасет состоит только из фичей указанных в статье? Я был бы очень благодарен за возможность поиграться с ним :)
zelenin
а так http://kinopoisk.cf/?
yurij_volkov
С этим сервисом я разбирался где-то месяца два назад и тогда он толком не работал. В комментарии ниже, написали, что и сейчас он должным образом не функционирует.