Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате. 
Почему этот вопрос актуален?
Бизнес-кейсы различны, техническая суть одинакова
- Аналитика работы колл-центра
 - Аналитика продаж, включая прогнозы
 - Антифрод системы
 - Business process mining
 - Различные аудиты (технические, финансовые)
 - Складские и логистические задачи
 - Activity-based costing
 - Business-process monitoring
 - Log-based аналитика
 - Capacity management
 - Текстовая аналитика (e-mail, service-desk)
 - "Гибкие" дашборды и отчеты
 - "интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
 - ...
 
Является продолжением предыдущих публикаций.
Практические наблюдения
- очень многие подобные задачи сводятся к математической манипуляции с данными (CRUD системы за рамками, рассматриваем именно разнообразный процессинг и преобразование);
 - 80% задач по манипуляции данными могут быть быстро и эффективно решены "под ключ" путем применения инструментария R;
 - в бизнесе, как правило, задачи и требования быстро корректируются, в т.ч. из-за внешних факторов или полученных промежуточных результатов;
 - "модульные" технологии хорошо приживаются и в ИТ; строительство "монолита" может занять 2-3 года, что сопоставимо со сроком жизни небольшого решения. Гораздо эффективнее быстро собрать "модульную" конструкцию, накопить практического опыта и через 2-3 года скомпоновать новое решение с учетом полученных знаний и прошедших изменений в ИТ и бизнесе.
 
Типичные “городские легенды” про R
- R медленный
 - R трудночитаемый
 - R предназначен для стат. расчетов по сложных алгоритмам
 - R предназначен для интерактивной работы
 
Все это возникает из-за поверхностного изучения темы и используемых инструментов.
Городские легенды — заблуждения из "90-х"
- R — полноценный язык программирования, а не консольный калькулятор.
 - R хорошо выступает в качестве универсального “клея” между различными платформами и C компонентами — считает быстро!
 - Читаемость кода зависит от опыта разработчика. Современный стиль R — метапрограммирование. Код компактен и быстр.
 - R — это экосистема, позволяет реализовать полный цикл обработки данных от импорта данных до предоставления АРМ и подготовки презентаций.
 
Предыдущая публикация — «Использование вычислительных возможностей R для проверки гипотезы о равенстве средних».
Комментарии (7)

dedyshka
22.04.2019 15:13На тему «городских легенд»…
Что-либо изменилось для ситуации когда данные не помещаются в память целиком или всё также костыли?

i_shutov Автор
22.04.2019 15:15Костыли? О каких именно объемах идет речь?
- объемы доступной памяти кардинально изменились.
 - хорошо еще от задачи идти, может и не будет мусорных данных.
 - неплохо подумать над алгоритмом.
 - в радикальном случае для хранения данных используется бэкенд и часть примитивной выборки и предобработки перекладывается на него.
 

Ananiev_Genrih
23.04.2019 13:18Илья, спасибо за очередную статью.
Хотелось бы про валидацию отдельной статьи от тебя (хотя бы обзорной): очень уж пакеты в презе заинтересовали.
к тому же автора одного из этих пакетов уважаю за пакет stringdist)))
          
 
YuryFedin
Может стоит еще разместить на ресурсе доступном в РФ без «танцев с бубнами»?
i_shutov Автор
Да. Спасибо модератору Виктории. Все оперативно подкорректировал.