Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате.
Почему этот вопрос актуален?
Бизнес-кейсы различны, техническая суть одинакова
- Аналитика работы колл-центра
- Аналитика продаж, включая прогнозы
- Антифрод системы
- Business process mining
- Различные аудиты (технические, финансовые)
- Складские и логистические задачи
- Activity-based costing
- Business-process monitoring
- Log-based аналитика
- Capacity management
- Текстовая аналитика (e-mail, service-desk)
- "Гибкие" дашборды и отчеты
- "интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
- ...
Является продолжением предыдущих публикаций.
Практические наблюдения
- очень многие подобные задачи сводятся к математической манипуляции с данными (CRUD системы за рамками, рассматриваем именно разнообразный процессинг и преобразование);
- 80% задач по манипуляции данными могут быть быстро и эффективно решены "под ключ" путем применения инструментария R;
- в бизнесе, как правило, задачи и требования быстро корректируются, в т.ч. из-за внешних факторов или полученных промежуточных результатов;
- "модульные" технологии хорошо приживаются и в ИТ; строительство "монолита" может занять 2-3 года, что сопоставимо со сроком жизни небольшого решения. Гораздо эффективнее быстро собрать "модульную" конструкцию, накопить практического опыта и через 2-3 года скомпоновать новое решение с учетом полученных знаний и прошедших изменений в ИТ и бизнесе.
Типичные “городские легенды” про R
- R медленный
- R трудночитаемый
- R предназначен для стат. расчетов по сложных алгоритмам
- R предназначен для интерактивной работы
Все это возникает из-за поверхностного изучения темы и используемых инструментов.
Городские легенды — заблуждения из "90-х"
- R — полноценный язык программирования, а не консольный калькулятор.
- R хорошо выступает в качестве универсального “клея” между различными платформами и C компонентами — считает быстро!
- Читаемость кода зависит от опыта разработчика. Современный стиль R — метапрограммирование. Код компактен и быстр.
- R — это экосистема, позволяет реализовать полный цикл обработки данных от импорта данных до предоставления АРМ и подготовки презентаций.
Предыдущая публикация — «Использование вычислительных возможностей R для проверки гипотезы о равенстве средних».
Комментарии (7)
dedyshka
22.04.2019 15:13На тему «городских легенд»…
Что-либо изменилось для ситуации когда данные не помещаются в память целиком или всё также костыли?
i_shutov Автор
22.04.2019 15:15Костыли? О каких именно объемах идет речь?
- объемы доступной памяти кардинально изменились.
- хорошо еще от задачи идти, может и не будет мусорных данных.
- неплохо подумать над алгоритмом.
- в радикальном случае для хранения данных используется бэкенд и часть примитивной выборки и предобработки перекладывается на него.
Ananiev_Genrih
23.04.2019 13:18Илья, спасибо за очередную статью.
Хотелось бы про валидацию отдельной статьи от тебя (хотя бы обзорной): очень уж пакеты в презе заинтересовали.
к тому же автора одного из этих пакетов уважаю за пакет stringdist)))
YuryFedin
Может стоит еще разместить на ресурсе доступном в РФ без «танцев с бубнами»?
i_shutov Автор
Да. Спасибо модератору Виктории. Все оперативно подкорректировал.