Привет, Хабр! Меня зовут Дмитрий Раевский, я Data Scientist в Райффайзенбанке, занимаюсь цифровизацией кредитов и кредитного контроля. Сегодня я хочу рассказать про оценку коммерческой недвижимости — объектов, которые используются для извлечения прибыли. Поскольку мы на Хабре, то разговор пойдет не об оценке в вакууме, а о привлечении технологий для решения этой задачи. 

Мой рассказ я решил разделить на два смысловых раздела. В первом немного расскажу об оценке коммерческой недвижимости как задаче — что это, для чего нужно, как выполняется, какие есть сложности и т.п. Во втором — покажу, как эту задачу можно решить при помощи технологий. И бонусом — анонсирую большой хакатон по оценке коммерческой недвижимости от Райффайзенбанка.

Зачем банку оценивать недвижимость?

Практически в любом банке выдают кредиты под залог, поэтому объектов такого типа может быть очень много. Для банка недвижимость — дополнительная страховка в случае непредвиденных ситуаций , а для клиента — возможность получить крупную сумму кредита, иногда даже под меньшие проценты. Для правильного расчета размера кредита и других его показателей каждый объект залога проходит процедуру оценки — определение рыночной стоимости объекта. В нашем случае рассматриваться будет коммерческая недвижимость. 

Оценка коммерческой недвижимости обычно проводится одним из двух методов (или их комбинацией):

1. Сравнительный подход — при таком подходе рыночная стоимость объекта определяется с помощью сравнения текущих предложений на рынке. Так, на сайте с предложениями о продаже коммерческой недвижимости (например, «Циан» или Avito) оценщик подбирает наиболее похожие объекты недвижимости — обычно от 3 до 6 аналогов, и сравнивает их. 

2. Доходный подход — при таком подходе рыночная стоимость определяется как потенциальный доход от эксплуатации данного объекта. Здесь анализируется привлекательность местоположения объекта, цена за аренду похожих объектов на рынке и другие характеристики, влияющие на доходность коммерческой недвижимости. На основе анализа выводится рыночная стоимость объекта.

При оценке коммерческой недвижимости важную роль играет продолжительность этого процесса — чем медленнее оценщик выполняет свою задачу, тем дольше задерживается решение о выдаче кредита. Это, в свою очередь, повышает вероятность того, что клиент уйдет к конкуренту. Скорость оценки в этой сфере имеет огромное значение — чем быстрее банк работает с объектами, тем больше он их оценит. Соответственно, тем больше он выдаст кредитов — влияние на бизнес здесь самое прямое.

ИТ-решения для автоматической оценки

В разных странах рынок недвижимости развит неравномерно, поэтому все решения по автоматической оценке напрямую зависят от того, в рамках какого рынка велась разработка. Поэтому мы рассмотрим только инструменты по анализу и автоматической оценке недвижимости, которые на данный момент есть в России. 

Вот какие основные факторы мы выявили для внедрения моделей по оценке недвижимости:

  • объем доступных данных;

  • историчность доступных данных;

  • качество данных;

  • инфраструктура;

На российском рынке есть немало компаний, качество оценки которых находится на высоком уровне (например, SRG или «Мобильный оценщик»), а сервисы поиска недвижимости, такие как «Циан», продолжают активно развивать это направление. Кроме того, собственные разработки есть даже в некоторых банках. Все эти решения разработаны на базе большого объема исторических данных по продаже объектов недвижимости.

Как выглядит интерфейс сервисов для оценки жилой недвижимости на примере мобильного оценщика:

Технологии и автоматизация оценки недвижимости 

С точки зрения Machine Learning (ML), задачу прогнозирования стоимости коммерческой недвижимости можно рассматривать с нескольких точек зрения:

  1. Как предсказание стоимости — задача регрессии. Берем доступные данные о продаже объектов коммерческой недвижимости, делаем time series валидацию, проверяем итоговые метрики (например, mean absolute percentage error (MAPE), root mean squared error). После этого — анализируем качество модели.

  2. Как задачу классификации. Если рассматривать сравнительный подход, то у нас уже есть исторические ручные оценки — то есть подобранные аналоги к каждому объекту оценки. На основе этих данных мы можем обучить классификатор, который сможет для каждого объекта оценки говорить, подходит он, — или нет. Если данных очень много, то вначале можно сделать предварительный отбор аналогов (например, по местоположению), и уже после этого натравить классификатор сверху.

  3. Вместо задачи классификации можно решать эту задачу и как задачу ранжирования — все аналоги ранжируются от самого приоритетного, после этого выбирается топ n кандидатов.

Если первый пункт про предсказание стоимости решать традиционными state-of-the-art алгоритмами машинного обучения для табличных задач регрессии (например, градиентным бустингом), то теряется интерпретируемость алгоритма, которая иногда может быть важна. Во 2 и 3 случаях интерпретировать результаты алгоритма можно путем интерпретации подобранных аналогов для оценки.

Сейчас существует два основных источников данных для оценки и валидации в зависимости от доступности:

  • Предложения на рынке о продаже недвижимости. Они необходимы, чтобы можно было как минимум «скопировать» действия оценщика при сравнительном подходе.

  • Результаты ручных оценок реальных объектов недвижимости.

Если датасет по предложениям на рынке можно собрать и самостоятельно, то объем результатов ручных оценок на 1-2 порядка меньше, чем количество предложений на рынке недвижимости. К примеру, в банк ежедневно может поступать около 100 заявок на оценку недвижимости (ипотека или кредит). В то же время на любом сайте недвижимости можно найти сотни тысяч актуальных предложений о покупке недвижимости. Опытный специалист сразу увидит сложность в том, что мы обучаем модель на одном датасете, а делаем предсказания — на другом.

Как минимум для себя следует ответить на некоторые вопросы:

  • Какие фичи вообще доступны и в первом и втором датасете?

  • Отличаются ли распределения по фичам?

  • Есть ли сезонность и коррелируют ли они друг с другом?

  • Как грамотно построить валидацию алгоритма?

  • Если во втором датасете очень мало данных, как грамотно проверить, что алгоритм работает правильно?

Один из трюков, который поможет разобраться в этих вопросах, и уже хорошо зарекомендовавший себя при решении различных конкурсов машинного обучения, называется adversarial validation — мы позволим классификатору учиться отделять предложения на рынке от результатов ручных оценок. 

С помощью этого подхода мы можем посмотреть, какие фичи у нас наиболее отличаются в выборках. Также он позволяет построить грамотную валидацию, выбирая из обучающей выборки только подходящие объекты. При таком подходе можно построить грамотную валидацию, по крайней мере, в наших разработках это играло важную роль — и дальше обучить модель, которая будет неплохо обобщаться и на валидационные данные.

Небольшой, но показательный пример

Допустим, вы грамотно построили валидацию, и метрики от ваших гипотез стабильно растут. Теперь следует показать бизнесу, что ваша модель работает хорошо, и что она готова к проду. Как бы хорошо ни была обучена модель, все равно появятся некоторое количество сильных выбросов (например, по MAPE), которые могут многое испортить. 

Пример: если среднее значение MAPE=8%, но каждый 10-й объект имеет MAPE=80%, то есть большая вероятность, что каждый 10 клиент будет уходить из-за того, что модель сильно занизила/завысила стоимость его объекта. Понятно, что вряд ли банк сможет согласиться с таким риском. Поэтому с бизнесовой точки зрения отдельно нужно рассматривать несколько кейсов:

  1. Количество кейсов на валидации, когда модель «несильно» отклоняется от ручной оценки (обычно этот порог +/-15% по отклонению);

  2. Количество кейсов, когда модель «сильно» переоценила объект — переоценка ведет к увеличению возможных потерь в случае дефолта клиента;

  3. Количество кейсов, когда модель «сильно» недооценила объект — недооценка ведет к уменьшению величины кредита, что может сказаться на решении клиента уйти в другой банк.

Можно долго и упорно улучшать качество своей модели, но выбросы вряд ли уйдут полностью. Поэтому очень остро стоит вопрос в аналитике «проблемных» объектов модели — например, аналитика, которая показывает, чем эти объекты отличаются от других. Сюда можно включить большой разброс цен по похожим аналогам в этой локации по сравнению с другими объектами. Тут же можно задействовать другие алгоритмы интерпретации результатов модели — например, SHAP. Главная задача — уметь отделить такие объекты от остальных, перестраховаться и отправить их на ручную оценку.

Итогом всех страданий станет рабочая модель, предсказывающая стоимость недвижимости, в результатах которой вы уверены, а также отделение «плохих» объектов от «хороших» для снижения риска для всего бизнеса.

Пример работы такой системы: один клиент хочет отдать в залог коммерческое помещение street-retail, находящееся на первом этаже многоэтажного жилого дома. Модель дает свою оценку, после чего с помощью второго алгоритма мы проверяем, что при обучении модели было достаточно похожих объектов в пределах одного километра. Тогда оценка первой модели принимается, и залоговый менеджер видит, что стоимость этого объекта рассчитана автоматически. 

Другой пример — клиент хочет сдать в залог офисное встроенное помещение в элитном бизнес-центре в центре Москвы. Модель дает свою оценку, но по статистике мы видим, что в этом бизнес-центре очень большой разброс по ценам и мало объектов. Оценка модели не принимается, и залоговому менеджеру приходит уведомление, что лучше этот объект оценить руками.

Хотите решить эту задачу?

Мы планируем провести хакатон по оценке коммерческой недвижимости в сентябре 2021 года. Специально для этого мы подготовили датасеты и постановку задачи таким образом, чтобы она была максимально приближена к продакшену.

Почему хакатон может быть интересен DS-специалистам?

  • Актуальная задача и реальные данные, собранные за год.

  • Задача регрессии на табличках. Всем, кто соскучился по такой классике, будет очень интересно. Нестандартная метрика, приближенная к потребностям бизнеса.

  • Можно отточить свои навыки в плане построения правильного алгоритма валидации, на 100% приближенного к продовой реальности.

  • Интерпретация результатов модели (interpretable ml, causal inference) — самые лучшие подходы будут непременно оценены.

Регистрируйтесь!

Комментарии (2)


  1. expertykt
    25.08.2021 05:38

    есть немало компаний, качество оценки которых находится на высоком уровне

    Стоит посмотреть группы профессиональных риэлторов, чтобы узнать их мнение об этом уровне. Реальные риелторы (а не медиа-компании по разводке лохов) кормятся за счет сарафана и постоянников - потому что знают РЕАЛЬНЫЕ цены. Реальные цены иррациональны: не зависят от "очевидных" ценообразующих факторов и зависят от совсем бредовых "факторов". Поэтому реальные цены нельзя вычислить - их можно только знать. Узнать их можно только общаясь с реальным рынком - реальными продавцами и реальными покупателями. Эти реальные продавцы и покупатели ничего не могут сказать про цены, они всегда врут. Но если за ними наблюдать каждый день, то можно увидеть, по каким ценам они совершают реальные сделки. И это видят только вот эти риелторы, которые получают лидов в основном по рекомендациям.

    Посмотрите как эти риелторы недовольны авитами и прочими посредниками, которые сеют хаос и недоверие, чтобы ловить в мутной воде. А вы лезите в этот омут с наивными представлениями типа 1. Сравнительный подход 2. Доходный подход. Рука-лицо.

    об оценке коммерческой недвижимости как задаче

    Задача отдела кредитования - выдавать кредиты. Есть план. Есть люди, у которых оплата зависит от плана. И вот эти выдумки с оценками иногда мешают людям работать. С живым оценщиком можно договориться (нет правильной оценки - нет кредита - нет оплаты за оценку - с нашим банком больше не работаешь. Ровно для этого существуют списки аккредитованных в банках оценщиков.). Робот по этой причине будет внедрен примерно никогда - с ним просто невозможно работать.

    Еще есть такая штука, как надзор ЦБ и резервные требования. Чем ниже залоговое покрытие, тем выше резервные требования. Т.е. мало того, чтобы залог покрывал кредит. Надо еще, чтобы он его перекрывал в 5 раз - чтобы удешевить резервы. Поэтому ЦБ плачет, что 95% оценок залога завышены, но изменить систему не в силах.

    Так что проблема вашего робота не в способности верно оценивать, а в несоответствии реальным требованиям бизнеса и государства.

    чем медленнее оценщик выполняет свою задачу

    Оценщик может выполнить задачу за 15 минут. Недели уходят на оформления - подписания - согласования - коммуникации - саботаж - обычные простои. Каждый банк считает нормой требовать от оценщиков отчет по своей собственной форме, причем каждый оценщик должен сам автоматизировать все свои процессы под каждый банк, причем все это меняется постоянно и непредсказуемо. Банки могли бы получать тупо JSON / XML и оформлять их в формы как того захочет главный залоговик. Но нет, требовать этого от своего айти отдела некошерно - засмеют, а от стороннего оценщика можно - пусть поплачут.

    Банк, который позеленее, слышал откуда звон и сделал "платформу" для общения с оценщиками. Только опять автоматизировали все на своей стороне и через одно место, а оценщики должны руками забивать сотни цифр в систему.

    Сейчас существует два основных источников данных для оценки и валидации : 1) Предложения на рынке о продаже недвижимости. 2) Результаты ручных оценок реальных объектов недвижимости

    Этим летом я заехал в Питер на пару недель и надо было снять жилье на это время. В "предложениях на рынке" есть такая практика - на фото указывать свой id на авито и прочих цианах. Это чтобы показать, что на фото реальный объект и этот объект имеет прямое отношение к автору объявления. Два объявления было с правильным id. ДВА ВЕРНЫХ ID НА ВЕСЬ ПИТЕР. Все остальные - фейк по определению в правилах использования id.

    Это к чему: государство защищает право мошенников на манипуляции рынком. Как так получилось, что 99% доступной информации о рынке - фейк? Это от того, что реальная цена сделок - закрытая информация. Причем, закрыта она только для рынка - пусть он сам как-то разбирается, государство ему ничего не должно. (А в тех странах, где вы не захотели заниматься оценкой - указание в объявлении фейковых фоток и фейковых цен является уголовным преступлением.)

    Для дата сатаниста поясню отдельно.

    1) Для "правильной оценки" своего объекта публикуют 2 - 3 десятка фейковых "предложений". Оценщик берет их и получает "правильную" оценку.

    2) Медиа типа циана публикуют фейки с привлекательными ценами. Которые, и правда, привлекают поток лидов. Только этим лидам говорят, что тех цен уже нет и посмотрите какое замечательное г@вн@ у нас есть только сегодня и только для вас по специальной цене.

    3) Авиты и цианы максимально затрудняют общение продавцов и покупателей. Логика безупречна: чем сложнее общение, тем дороже посредничество. Посредники применяют манипуляции, чтобы объяснить необходимость разных препонов и соответствующих платежей заботой о безопасности - классика.

    Вот из этих трех историй и состоит ваше 1) Предложения на рынке. Реальные рыночные предложения в доступной информации составляют доли процентов.

    А 2) Результаты ручных оценок вы совершенно замечательно приравниваете к фейковым "предложениям на рынке". Потому что это ангажированный пересказ п 1) Предложения на рынке. Вы вообще в курсе, что оценочная деятельность находится в крайне зарегулированном состоянии? Оценщики должны, с одной стороны, знать некие негласно внедряемые бессмысленные техники определения рыночной стоимости, с другой стороны само понятие "качество оценки" отсутствует в нормативных требованиях. Т.е. требования к качеству очень велики, но критериев качества нет вообще. Как вы верно заметили, оценщики обычно применяют 3 - 6 аналогов при доступных 3000 - 6000. Се ля ви. Анализ рынка на цифрах оценщиками делается примерно никогда, а все расчеты основываются на неких справочных данных - полученных путем опроса людей, которые даже рядом не стояли, но платят за эти самые справочники, на которые сами потом же и ссылаются в своих отчетах. Современная российская оценка это полный сюр. Всех это устраивает.

    На рынке РФ нет данных по ценам недвижимости. Потому что так надо чиновникам. По этой же причине закрыта реальная медицинская и образовательная статистика. Последствия общеизвестны.

    проверяем итоговые метрики

    Открою страшную тайну: цена недвижимости это не одна цифра. Это даже не доверительный интервал.

    Цена имеет эластичность. Применительно к недвижимости здесь есть специфика: недвижимость - это не биржевой товар. На штучный товар есть штучный покупатель и штучный продавец. Коммуникации для штучных персон имеют конечную эффективность (время прежде всего). Коммуникации стоят денег и времени. Т.е. на эластичность накладывается еще эффект качества коммуникаций. Можно повесить объявление на столбе или разослать объявления на все без исключения доски объявлений и позвонить всем риэлторам региона - разница в скорости продажи будет большая.

    Таким образом, каждому значению цены соответствует ожидаемый срок продажи при заданных усилиях на коммуникацию. Даже если забить на умение продавать (а на этом люди делают состояния) цена как цифра не имеет смысла без указания срока экспозиции и доверительного интервала. Т.е. хочешь продать за месяц и заплатить за это Х руб. - цена будет от А до Б, а если надо продать за год и потратить на это Yруб. - цена заметно другая.

    Но это все лирика. Реально взрослая тема - метрика. Вы предполагаете проверять качество предсказания цены - словами из объявлений, которые на самом деле не для продажи даже, а для указанных выше п.1), 2) и 3). Т.е. весь ваш ML и AI ориентируете на такое качество измерения писюна:

    Сначала на авито выставляется очень большой писюн. Свой, родной, он конечно дороже всех чужих. Идут месяцы, но никто не может по достоинству оценить такой замечательный писюн. И приходит грустное осознание того, что цену надо снижать. Сначала немного. Потом больше. Затем - в разы. Так живут реальные рыночные предложения. Но вы основываете выводы не на них, а на фейках. Чтобы затем валидировать построенные на фейках выводы по этим же самым фейкам.

    В заключение

    Можно бесконечно делать три вещи - смотреть, как горит огонь, как работает другой человек и угорать над дата сатанистом. Можно будет как-нибудь продолжить, материала здесь еще навалом. Спасибо за хорошее настроение.

    Хакатон, конечно - дело молодое.

    Попробуйте подключить продакта.


    1. DRaevsky Автор
      25.08.2021 10:59

      Я все ждал подобного комментария потому что за время опыта работы в оценки недвижимости не раз общался с людьми с похожей точкой зрения. Хочется сразу заметить, что под оценщиком я не имею ввиду именно оценщика из оценочной компании, оценщики могут быть и в банке и в сторонних организациях.

      У Вас, правда, комментарий слишком большой, поэтому я отвечу вначале на объективные замечания:

      Задача отдела кредитования - выдавать кредиты. Есть план. Есть люди, у которых оплата зависит от плана. И вот эти выдумки с оценками иногда мешают людям работать. С живым оценщиком можно договориться (нет правильной оценки - нет кредита - нет оплаты за оценку - с нашим банком больше не работаешь. Ровно для этого существуют списки аккредитованных в банках оценщиков.). Робот по этой причине будет внедрен примерно никогда - с ним просто невозможно работать.

      Тут сразу два нюанса:

      1. требование о независимой оценки со стороны независимой оценочной компании необходимо только в случае ипотеки и только для retail сегмента. В случае залога объекта этого требования нет и банку нет никакой необходимости в подключении внешней оценочной компании

      2. вот именно потому что с живым оценщиком договариваются - банки все и перепроверяют их результаты дополнительной оценкой (реально не побоюсь сказать ВСЕ банки, потому что я это знаю);

      Еще есть такая штука, как надзор ЦБ и резервные требования. Чем ниже залоговое покрытие, тем выше резервные требования. Т.е. мало того, чтобы залог покрывал кредит. Надо еще, чтобы он его перекрывал в 5 раз - чтобы удешевить резервы. Поэтому ЦБ плачет, что 95% оценок залога завышены, но изменить систему не в силах.

      Так что проблема вашего робота не в способности верно оценивать, а в несоответствии реальным требованиям бизнеса и государства.

      Более того, я скажу что Райффайзенбанк - международный банк, и есть еще требования со стороны международного регулятора. Если Вы думаете, что мы делаем этот проект без коммуникации с бизнесом и без уведомления ЦБ и международного регулятора, то Вы глубоко заблуждаетесь. Мы постоянно общаемся с бизнесом (в том числе и с экспертами по оценке, у которых общий стаж по оценке и в оценочных компаниях и в отделе кредитования и залогов в банках превышает 10 лет), презентуем свои результаты (в том числе членам правлению банка, поэтому о проекте в курсе все), вместе ищем пути улучшения.

      Для ЦБ и международного регулятора мы оцениваем риски от внедрения моделей, которые напрямую влияют можно ли внедрять модель и на каких условиях. Готовим техническую документацию и вся остальная бюрократия.

      Мы не сразу стали оценивать коммерческую, проект наш не новый в банке, и мы не видим что на каком-то этапе кто-то это принимает в штыки.

      Оценщик может выполнить задачу за 15 минут. Недели уходят на оформления - подписания - согласования - коммуникации - саботаж - обычные простои.

      Никогда не видел, чтобы оценщик выполнил свою задачу за 15 минут. Если говорить про типичную жилую недвижимость - да, если говорим про коммерческую - вообще нет, с учетом объема работ оценщика. Если говорить про оценщики с небольшим опытом, то 15 минут просто нереально

      Открою страшную тайну: цена недвижимости это не одна цифра. Это даже не доверительный интервал.

      Это вообще не тайна, всем ясно что цен вообще может быть несколько, основных можно четыре выделить:

      1. цена в объявлении - что-то субъективное и непонятное, такое использовать нельзя;

      2. цена в отчете об оценке - тоже довольно субъективная вещь, оценщик всегда может договориться, как Вы правильно заметили;

      3. цена ДКП - уже более приближенно к реальности, так как есть тут задействован банк, то цена в ДКП и цена в отчете об оценки близки (мы это проверяли не раз) и, как следствие, близки к рыночной стоимости объекта;

      4. рыночная стоимость - вот тут как раз начинаем говорить про сроки экспозиции квартир, что в зависимости от разных внешних параметров квартиры определяется рыночная стоимость. Про это можно много говорить и разглагольствовать, я не стал тут вдаваться в подробности, так как статья вообще не про это.

      Дальше просто у Вас написана волна хейта в сторону автоматизации оценки - про некомпетентность дата санатистов в оценке, про то что все вокруг вранье, человека не заменить (только он знает правду), про писюны и т.д. Таких точек зрения за время работы в сфере оценки недвижимости я слышал много раз. Позитивный фактор, что люди, которые видят этот процесс сверху и у которых есть большая статистика для сравнения всех доступных цен (отчет об оценке, цены ДКП, рыночная стоимость, стоимость модели) и расчетов, понимают что можно и нужно автоматизировать. И я очень рад, что ни разу еще не видел, чтобы эти люди были против этого.

      Кажется создалось впечатление, что мы такие дата сатанисты в банке без опыта в оценке решили вдруг что-то сделать хорошее и крутое и предложили идею с автоматизацией оценки бизнесу, что совершенно не так. Идея проекта прежде всего исходила от бизнеса и там четко проанализировали все возможности автоматической оценки со всеми ограничениями.

      Единственный у меня вопрос - что если только оценщики и риелторы знают ту "реальную" по Вашим словам стоимость - как тогда потом все оценивают сравнительным подходом?) Как работает и на чем зарабатывают циан, авито, если на их сайтах - один фейк (с которыми, кстати говоря, они тоже справляются)? Честно, с Вашей стороны тут просто вбросы чтобы так же побольше вкинуть хейта.

      Я более чем уверен, что Вы останетесь при своем мнении в любом случае, но хотелось ответить на комментарий, чтобы другие пользователи, которые больше по AI,DS,ML и меньше про оценку недвижимости, не подумали, что мы совсем некомпетентны в этом вопросе.