Кино, финансы и data science / forpes.ru

Главная
Кино, финансы и data science

Кино, финансы и data science

20.06.2024 16:30

Antony_Rain 2 864 Источник

Предположим, что государство предложило "частникам" стать соинвесторами в российский кинематограф. Механизм – допустим, эмиссия акций и облигаций кинопроизводителями и дистрибьютерами киноконтента, а также выпуск "проектных" или условных "субфедеральных" облигаций по аналогии с муниципалитетами и региональными бумагами.

Все как положено, с амортизацией, налоговыми льготами при реинвестировании, гарантиями возврата капитала, возможностью частичного погашения налогов и сборов в бюджет и прочими вычетами ~~плюшками для инвесторов.~~

Пока принципиально не рассматриваем краундлендинг и всевозможные крипто-истории, а также производные финансовые инструменты. Только классика ~~только хардкор~~ инвестиций.

Отметим сразу, что кинобизнес может быть не только крайне патриотичным, богоугодным, полезным для развития всей креативной отрасли и смежных отраслей экономики, но и прибыльным. Условный портфель проектов на исторической доходности может давать до 130% годовой прибыли. Почему именно портфель? — вложения в один проект все‑таки достаточно рискованны — все помнят историю со "Смешариками" от фонда под управлением "Тройки‑Диалог". Диверсификация — наше все.

Главный вопрос бытия

Как именно определить, будет ли фильм успешным и сколько он даст заработать частным инвесторам?

Признаки инвестиционного успеха такие как жанр, длительность, рейтинг детально разобраны здесь. Обученные на исторических данных ансамблевые модели машинного обучения достаточно точно отбирают (классифицируют) успешные и неуспешные в прокате фильмы, даже в условиях дефицита информации. Мало того они могут рассказать о том, насколько фильм будет успешен или неуспешен при том или ином сочетании факторов.

По запросу прогнозирование кинопроката с помощью машинного обучения мы увидим десятки и сотни публикаций, касающихся глобального кинорынка, отдельных страновых ниш. Предиктивная аналитика кинопроката достаточно развита в странах Азии и Африки от Китая, Индии, Индонезии и Шри-Ланки до Нигерии. В России, к сожалению, количество работ по данной тематике ограничено.

Тренируемся на ... кинокотиках

Теперь давайте попробуем просчитать на малой 26-факторной модели теоретическую возможность определять: сколько именно может собрать конкретный фильм в прокате (трансляцию на ТВ и платформах, сопутствующие каналы монетизации пока оставим вне контекста), сколько зрителей его просмотрит, наконец, какой зрительский рейтинг будет у него на "Кинопоиске" (а есть еще и большая 146-факторная модель).

Для решения задачи регрессии мы будем использовать популярные метрики качества:

MSE - Среднеквадратическая ошибка

R2 - коэффициент детерминации

MAE - средняя абсолютная ошибка

В качестве исследовательской базы данных у нас – 26-факторный датасет с историческими данными проката российского кинематографа с 2004 года.

Сначала мы будем работать со зрительским рейтингом "Кинопоиска", постараемся создать модель его прогнозирования, потом перейдем к сборам и просмотрам.

По аналогии с предшествовавшей публикацией о классификации успешных/неуспешных кинокартин, мы "прогоним" датасет через несколько ансамблевых моделей регрессии: AdaBoostRegressor, BaggingRegressor, ExtraTreesRegressor, GradientBoostingRegressor, RandomForestRegressor, HistGradientBoostingRegressor, CatBoostRegressor и получим следующую картину:

Метрики качества ансамблевых моделей машинного обучения на тестовом датасете

Которая нас очевидным образом не совсем устраивает. И ради науки попробуем все-таки ~~упороться~~ поработать со StackingRegressor с 5 базовыми моделями и VotingRegressor.

В первом случае мы получили дополнительно следующие метрики качества:
R2 score: 0.7765016786761326
MSE: 0.33853354109051054
MAE: 0.3771748372943936

Во втором:
R2 score: 0.7681826141319006
Mean Squared Error: 0.3511344517462928
Mean Absolute Error: 0.3920323384745612

Разумеется, можно продолжить комбинировать вложения моделей в метамодели Stacking и Voting, но уже ставший нам родным и любимым CatBoost показывает сопоставимые результаты без т~~анцев подбора гиперпараметров с бубнами от random_search или optuna~~ дополнительных ухищрений.

Метрики качества прогнозирования зрительского рейтинга "Кинопоиска" на 26-факторном датасете

В случае с предложенным датасетом мы упираемся в ограниченный набор данных (всего 1660 кинофильмов), которые к тому же не всегда полны, по 30% фильмов отсутствует описание размера бюджета. Увы, но с Голливудом, и даже Болливудом и нигерийским Нолливудом чуть проще – больше примеров и больше открытой информации.

Придется использовать ~~допинг~~ возможность многократной "проходки" в рамках имеющейся выборки с помощью resample из sklearn.utils. Мы для начала увеличим нашу исходную выборку в три раза и обучим CatBoostRepressor на ее основе.

Метрики качества показывают существенное улучшение модели (в реальности мы понимаем, что точное прогнозирование сборов и просмотров одного кинофильма – достаточно неблагодарное дело, а вот ситуация с "портфелем" проектов выглядит уже лучше).

Метрики качества прогнозирования рейтинга "Кинопоиска" на увеличенном датасете

Ситуация с метриками лучше, а, следовательно, подобный подход мы можем использовать и в отношении других прогнозируемых категорий: сборов, просмотров и даже соотношений сборов к бюджету — ибо в душе каждого из нас сидит ~~корыстный делец~~ светоч творчества и благодетель искусств, для которого пресловутые "иксы" прибыли означает лишь возможность ~~поднять бабла быстро~~ реализации своих благодатных инициатив и начинаний для просвещения будущих поколений зрителей.

R2 score: 0.974615911902227
Mean Squared Error: 1950602444091503.2
Mean Absolute Error: 9654861.136207841

Уже сам график нам говорит о том, что сборы свыше 1 миллиарда – уникальные явления для российского кинопроката, поэтому практически все проекты с бюджетом свыше 500 млн уже находятся в зоне риска по окупаемости. Идеальный вариант в наши дни — это все-таки 200-300 миллионов или феномен "якутского кино" с относительно низкими бюджетами (до 10-15 миллионов), но уникальной самобытной картинкой и формой подачи материала.

Фильмы-блокбастеры в России, увы, "выстреливают" очень редко, поэтому создавать их нужно исключительно в копродукции с иностранными инвесторами и под иностранные целевые аудитории.

Другой вариант – кинофраншиза с многократной "проходкой" черед целевые аудитории и разные каналы коммуникации с помощью кино, телесериала, видеоигры, серии романов, мерча, реалити-шоу, театральных постановок и других составляющих.

Так что между data science с идеей многократного использования одной и той же выборки, синтетическими данными и российским кинематографом – очень много общего!

Просмотры фильмов зрителями в кинотеатрах

Количество просмотров так же предсказуемо для кинотеатрального проката. Хотя картин, набравших в прокате больше 5 миллионов просмотров у нас можно пересчитать по пальцам за весь последний исторический период.

Здесь мы выскажем предположение, что для киноплатформ и стриминговых сервисов при наличии статистики и исторических данных просмотров, можно будет достаточно точно прогнозировать популярность того или иного продукта для целевых аудиторий, разбавляя эту информацию качественной "пипл-датой" от платежных систем, экосистем и маркетплейсов.

R2 score: 0.974080932645542
Mean Squared Error: 0.06380252085086532
Mean Absolute Error: 0.07639514420739313

Соотношение затраты/сборы так же поддаётся прогнозированию и на самых ранних этапах можно отбирать проекты с пресловутыми "иксами" прибыли. К сожалению, в истории российского кинематографа их мало – буквально считанные проценты и доли процентов. Окупаются в кинопрокате с 2004 года всего лишь 11,5% фильмов; а сколько их еще осталось на полках и вышло сразу на ТВ, платформах и дисках?.

Тем не менее даже за счет простого отбора проектов на раннем этапе можно повысить окупаемость проектов до 20% и 30% и величину сборов примерно в 1,7-1,9 раза даже при текущих размерах кинотеатральной сети.

Больше – проблематично, поскольку только российский кинорынок все-таки ограничен и для окупаемости пресловутых "блокбастеров" нужна страновая аудитория в 500 миллионов. И это уже вопросы не экономики, а скорее демографии. Поэтому альтернатив развития для российского кинематографа кроме как медиа-франшизы с многократными "проходками" по аудитории или экспорта, копродукции со странами Азии и Африки – пока не предвидится.

Вместо выводов

Трейдинг, криптовалюты и прочие околоинвестиционные темы достаточно плотно заняты ~~инфоцыганами~~ работниками информационно-развлекательной околофинансовой индустрии. Кино, креативные индустрии в целом – пожалуй единственная все еще не истоптанная площадка для творческого слияния интеллекта и финансов.

С одной стороны, маститые мэтры кинематографа из прошлого вещают об уникальном духовном потенциале, великой идее творчества, о примате мира духовного над мирским и недопустимости формализованного подхода к оценке проектов. Но, к сожалению, так индустрия не делается. Да и проблемы духовно‑нравственного развития и продвижения традиционных ценностей общества, патриотизма средствами искусства и культуры — тоже не решаются.

С другой стороны, есть продюсерский подход на "зарабатывании с бюджета", который создает отрицательный отбор кинофильмов вместо прогрессивного отбора — "зарабатывания с проката".

Впрочем, у рядового зрителя, к коим и относит себя автор нет нет, да и возникает вопрос: зачем снимать фильмы, которые «не заходят» для целевых аудиторий? Когда можно подобрать так параметры фильма — жанр, длительность, возрастной рейтинг, состав творческой аудитории, параметры бюджета и так далее, что любой самый "лубочный" или "клюквенный" проект, если не будет вписан в анналы мирового кинематографа как шедевр пропаганды и агитации Сергея Эйзенштейна, то хотя бы просто окупится в прокате?

Кстати, к вопросу о "броненосцах" в наших "кинопотемках". Есть фильмы, которые по мнению автора, могут иметь определенный успех в прокате. Возьмем к примеру список победителей питчинга "Фонда кино" от лидеров индустрии. Из 15 кинокартин вполне серьезные шансы на преодоление барьера "двух бюджетов" в прокате есть как минимум у ""Буратино", "Горыныча", "Руки вверх", "Чебурашки 2" — при рациональных, не превышающих лимита бюджетах (в бюджеты сильно выше 800 млн. лучше даже не смотреть), сохранении изначального жанра, отсутствия затягивания производства, оптимального подбора творческой группы. Подробный количественный прогноз тоже возможен, естественно, при наличии производственных данных.

Если на российских просторах будет сформирован "инвестиционный портфель" из 20–30 тщательно отобранных проектов в год, на горизонте нескольких лет можно стабильно получать если не "иксы", то десятки процентов прибыли. Как для государства, так и для частных инвесторов. В конце концов, экспорт хлеба, газа и нефти претерпевает циклические колебания мировой конъюнктуры, подвержен санкциям и запретам. Однако, хорошее кино смотрят всегда. А очень хорошее кино тоже можно экспортировать.

Датасет и код проекта находятся в репозитории.

Всем интересных и успешных в прокате фильмов!

Комментарии (2)

CrazyElf
22.06.2024 18:35
#26962792
+1
Как-то подозрительно сильно у вас метрики улучшаются при оверсемплинге. Я код ещё не смотрел, но вангую утечку данных. Типа того, что вы предсказываете, по крайней мере частично, те же сэмплы, на которых обучались. Для сложных моделей я другого объяснения не вижу. Не бывает такого халявного улучшения метрик. Сложные модели почти всё что можно из данных и так выжимают.
P.S. CatBoostRepressor, конечно, нигде кроме вашей статьи не гуглится. Забавно получилось.

CrazyElf
22.06.2024 18:35
#26963000
+1
Я посмотрел код. Всё как я и думал. Сначала вы делаете оверсемплинг, а потом уже делите выборку на трейн и тест. Естественно, при таком подходе в тест попадают размноженные образцы из трейна. Скор чудесным образом улучшается. Только вот в реальной жизни у вас не будет в трейне сэмплов того, что нужно предсказать. Поэтому сначала делайте деление на трейн и тест, а потом уже оверсемплите трейн. После чего скорее всего выяснится, что оверсемплинг скор не улучшает. И хорошо если не ухудшает.