Привет! Мы продолжаем публиковать видео с конференции BeeTech 2.0. Поток Engineering тут, Management тут.
В этой статье я поделюсь выступлениями спикеров потока Big Data. Вот ссылка на весь поток, внутри статьи ссылки на каждое видео с его описанием + презентация спикера.
Ерасыл Оразбек и Константин Садварий, Data Scientists, Beeline Казахстан.
Оцифровка сканированных документов
Ерасыл и Константин из команды Computer Vision показали, как они запустили проект оцифровки сканированных документов менее чем за месяц. Это позволило автоматизировать рутинную задачу, сэкономить кучу времени и ручной работы.
Из их выступления вы узнаете об этапах оцифровки сканов приходных ордеров, использованных методах CV и обученных нейронных сетях – коротко обо всём, что способствовало решению этой специфичной задачи.
Темирлан Смаил, Senior Data Scientist, KAZ Minerals.
Стартап в горнодобыче
Темирлан поделился опытом внедрения ML в компании KAZ Minerals, которая занимается добычей медной руды и получением из неё медного концентрата.
Он рассказал, как машинное обучение помогает оптимизировать производственные процессы, показал, какие виды данных подаются на вход рекомендательной модели, и какого эффекта удалось добиться от её применения.
Санжар Мурзахметов и Даир Мустахимов, Data Scientist’s, Beeline Казахстан.
Vanilla chat-bot
Даир и Санжар рассказали об этапах прокачки «Даны». Это стандартный целеориентированный чат-бот уже работающий в компании Beeline. Методом проб и ошибок, они заменяли и дополняли разные части бота предиктивными моделями, пока метрики не стали лучше.
Андрей Шадриков, CV R&D Team Lead, Verigram.
Доктор Loss. Дебаггинг обучения по косвенным признакам и советы для лучшей сходимости
Андрей рассказал о том, как «вылечить боль» нейронных сетей: как автоматизировать обнаружение нелепых багов, на что смотреть и что «подкрутить», чтобы не потерять рассудок в процессе машинного обучения.
Ильмурат Тохтахунов, Data Scientist, Beeline Казахстан.
Повышаем точность GEO
В докладе Ильмурат показал, какие методы применили в компании Beeline Казахстан для повышения точности гео. Представленные инструменты будут полезны тем, кто работает в телеком-компаниях или как-то связан с гео-аналитикой.
Лоокуут Стручков, Team Lead of Data Engineering, inDriver.
Специфика хранения данных inDriver в облаках Google
Ежедневно пользователи inDriver совершают миллионы сделок, а инженеры получают терабайты данных для аналитики.
В своём докладе Лоокуут рассказал, как в inDriver выстроены процессы разработки с учётом облачных технологий и Big Data, как организовано распределённое хранилище данных, а также поделился опытом использования Google Cloud Platform.