Меня зовут Иван Серов, я работаю в департаменте Data Science финтех-компании ID Finance. Data scientist –довольно молодая, но очень востребованная профессия, которая обросла множеством мифов. В этом посте я расскажу о нескольких заблуждениях, с которыми сталкиваются начинающие дата-саентисты (DS).
Хороший DS должен не только уметь построить хорошую модель, но и понять, почему именно такую модель он должен построить, и даже сказать, что эта модель не нужна, если это так. Например, для одного из наших проектов мы делали модель, которая бы предсказывала наличие на счету клиента денег и списывала с помощью специального алгоритма. Но в процессе создания модели поняли, что она не нужна: проще слегка улучшить работающий алгоритм. Иногда затраты на работу DS сильно превышают доходы от новой модели, которую они разрабатывают. В таком случае он должен обсудить необходимость такой модели с руководителем проекта и заняться чем-то более полезным.
XGBoost, LightGBM, Random Forest… Все эти алгоритмы называют как первоочередные для любой задачи. Многие начинающие DS даже не пробуют начинать с чего-то полегче. Однако, когда вдруг встает задача с разреженными данными, где 10000 переменных и 20000 строк, а XGBoost показывает AUROC 0,2 начинаются проблемы. Например, в этом случае лучше подойдет простой SVM с нелинейным ядром, который дал AUROC 0,8. Простые модели иногда работают лучше сложных.
Каждый день мы слышим от больших компаний про их новые проекты. Как искусственный интеллект улучшает один процесс на 10%, другой на 20% и прочее. После такого у многих может сложиться впечатление, что только в больших компаниях что-то происходит, а в компаниях поменьше нет ни интересных проектов, ни хороших DS. К счастью, это не так – поработав в одном из крупнейших банков, который позиционирует себя как digital, могу сказать, что интересных проектов в стартапах больше. Cкорость внедрения проектов в больших компаниях уже стала притчей во языцех и поводом для мемов. К примеру, в банке проект может внедряться и 3 месяца и полгода, за это время в стартапе вы успеете сделать несколько проектов. Вывод: пиар крупных компаний часто всего лишь пиар.
У тех, кто перерастает средний уровень часто встает вопрос — куда двигаться дальше. Варианта собственно два — Lead Data Scientist (тим лид) и Senior DS. Про саму разницу между уровнями написано уже много (например, вот хороший пост от Виктора Кантора), я лишь скажу, что зарплата хороших специалистов может быть гораздо выше, чем у любого тим лида, и надо отталкиваться только от своих желаний. Обычно после нескольких лет работы начинается выгорание, все задачи кажутся одинаковыми и надоедают. Тут нужно либо искать что-то новое (благо, у лидеров рынка вроде Nvidia, Amazon или Яндекс всегда что-то найдется), либо идти в управление (Lead DS -> Chief DS -> CDO), что многие и выбирают.
Многие не согласятся, мол, сейчас есть дата инженеры, которые и должны внедрять эти модели. Но DS всё же должен позаботиться о том, чтобы облегчить работу дата инженера, а как минимум:
Во многих компаниях вообще нет дата инженеров, и всё делают сами DS. Еще возможна ситуация, когда модель взаимодействует с вашим сервисом через API, который создаёт кто-то из айтишников, и не факт, что они знают что-то про data science. В таком случае DS может сделать модуль для обработки данных, выгрузить алгоритм в виде pkl и создать готовый исполнительный файл, который на вход получает json запрос, а на выходе выдает ответ в этом же json. Отдельно про тестирование: уже при создании модели важно продумать будущие АБ-тесты, правильно выбрать целевую метрику и понимать экономический эффект от модели.
Надеюсь, этим постом я раскрыл некоторые моменты, с которыми сталкиваются начинающие дата-саентисты и она кому-то поможет. В следующих постах я остановлюсь на некоторых мифах и домыслах подробнее.
А с какими мифами чаще всего встречались вы?
Немного о нас:
Финтех- холдинг ID Finance специализируется на data science, кредитном скоринге и небанковском кредитовании. Компания развивает бренды MoneyMan, AmmoPay, Solva и Plazo в России, Испании, Казахстане, Грузии, Польше Бразилии и Мексике. R&D центр ID Finance находится в Минске. Основателями компании являются экс-топ-менеджеры Deutsche bank и Royal Bank of Scotland Александр Дунаев и Борис Батин. Среди инвесторов ID Finance венчурный фонд Emery Capital. Компания заняла 36 место в рейтинге Financial Times самых быстрорастущих компаний Европы в 2018 г. Компании-активы ID Finance с 2012 года профинансировали кредитов на общую сумму свыше 275 млн EUR. На начало 2018 года совокупный кредитный портфель компании составлял 77 млн USD. О нас пишут Forbes, Business Insider, Finextra, Venture Beat, Crowdfund Insider, The Banker и BBC. Мы также публикуемся в русскоязычных медиа: Forbes, VC, Roem, RusBase и др.
DS не обязаны знать про бизнес
Хороший DS должен не только уметь построить хорошую модель, но и понять, почему именно такую модель он должен построить, и даже сказать, что эта модель не нужна, если это так. Например, для одного из наших проектов мы делали модель, которая бы предсказывала наличие на счету клиента денег и списывала с помощью специального алгоритма. Но в процессе создания модели поняли, что она не нужна: проще слегка улучшить работающий алгоритм. Иногда затраты на работу DS сильно превышают доходы от новой модели, которую они разрабатывают. В таком случае он должен обсудить необходимость такой модели с руководителем проекта и заняться чем-то более полезным.
Сложные алгоритмы всегда лучше
XGBoost, LightGBM, Random Forest… Все эти алгоритмы называют как первоочередные для любой задачи. Многие начинающие DS даже не пробуют начинать с чего-то полегче. Однако, когда вдруг встает задача с разреженными данными, где 10000 переменных и 20000 строк, а XGBoost показывает AUROC 0,2 начинаются проблемы. Например, в этом случае лучше подойдет простой SVM с нелинейным ядром, который дал AUROC 0,8. Простые модели иногда работают лучше сложных.
Если хочешь стать крутым DS — иди в большую компанию
Каждый день мы слышим от больших компаний про их новые проекты. Как искусственный интеллект улучшает один процесс на 10%, другой на 20% и прочее. После такого у многих может сложиться впечатление, что только в больших компаниях что-то происходит, а в компаниях поменьше нет ни интересных проектов, ни хороших DS. К счастью, это не так – поработав в одном из крупнейших банков, который позиционирует себя как digital, могу сказать, что интересных проектов в стартапах больше. Cкорость внедрения проектов в больших компаниях уже стала притчей во языцех и поводом для мемов. К примеру, в банке проект может внедряться и 3 месяца и полгода, за это время в стартапе вы успеете сделать несколько проектов. Вывод: пиар крупных компаний часто всего лишь пиар.
Руководителям проектов платят больше, чем хорошим спецам
У тех, кто перерастает средний уровень часто встает вопрос — куда двигаться дальше. Варианта собственно два — Lead Data Scientist (тим лид) и Senior DS. Про саму разницу между уровнями написано уже много (например, вот хороший пост от Виктора Кантора), я лишь скажу, что зарплата хороших специалистов может быть гораздо выше, чем у любого тим лида, и надо отталкиваться только от своих желаний. Обычно после нескольких лет работы начинается выгорание, все задачи кажутся одинаковыми и надоедают. Тут нужно либо искать что-то новое (благо, у лидеров рынка вроде Nvidia, Amazon или Яндекс всегда что-то найдется), либо идти в управление (Lead DS -> Chief DS -> CDO), что многие и выбирают.
DS не должны внедрять модель или тестировать её результаты
Многие не согласятся, мол, сейчас есть дата инженеры, которые и должны внедрять эти модели. Но DS всё же должен позаботиться о том, чтобы облегчить работу дата инженера, а как минимум:
- Писать грамотный код, в котором легко разобраться
- Думать над кодированием переменных. Например, LabelEncoder можно легко выгрузить в виде .pkl файла, а вот частотное кодирование на новых данных может стать проблемой
- Продумать, как в будущем будут проводиться АБ-тесты (кстати, оценка модели после введения в продакшн в большинстве случаев всё же лежит на том, кто её разрабатывал)
Во многих компаниях вообще нет дата инженеров, и всё делают сами DS. Еще возможна ситуация, когда модель взаимодействует с вашим сервисом через API, который создаёт кто-то из айтишников, и не факт, что они знают что-то про data science. В таком случае DS может сделать модуль для обработки данных, выгрузить алгоритм в виде pkl и создать готовый исполнительный файл, который на вход получает json запрос, а на выходе выдает ответ в этом же json. Отдельно про тестирование: уже при создании модели важно продумать будущие АБ-тесты, правильно выбрать целевую метрику и понимать экономический эффект от модели.
Надеюсь, этим постом я раскрыл некоторые моменты, с которыми сталкиваются начинающие дата-саентисты и она кому-то поможет. В следующих постах я остановлюсь на некоторых мифах и домыслах подробнее.
А с какими мифами чаще всего встречались вы?
Немного о нас:
Финтех- холдинг ID Finance специализируется на data science, кредитном скоринге и небанковском кредитовании. Компания развивает бренды MoneyMan, AmmoPay, Solva и Plazo в России, Испании, Казахстане, Грузии, Польше Бразилии и Мексике. R&D центр ID Finance находится в Минске. Основателями компании являются экс-топ-менеджеры Deutsche bank и Royal Bank of Scotland Александр Дунаев и Борис Батин. Среди инвесторов ID Finance венчурный фонд Emery Capital. Компания заняла 36 место в рейтинге Financial Times самых быстрорастущих компаний Европы в 2018 г. Компании-активы ID Finance с 2012 года профинансировали кредитов на общую сумму свыше 275 млн EUR. На начало 2018 года совокупный кредитный портфель компании составлял 77 млн USD. О нас пишут Forbes, Business Insider, Finextra, Venture Beat, Crowdfund Insider, The Banker и BBC. Мы также публикуемся в русскоязычных медиа: Forbes, VC, Roem, RusBase и др.
mayorovp
На КДПВ неправильные подписи: левая картинка — "что думаешь о себе сам", правая — "что думают родители".