Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате.


Почему этот вопрос актуален?


Бизнес-кейсы различны, техническая суть одинакова


  • Аналитика работы колл-центра
  • Аналитика продаж, включая прогнозы
  • Антифрод системы
  • Business process mining
  • Различные аудиты (технические, финансовые)
  • Складские и логистические задачи
  • Activity-based costing
  • Business-process monitoring
  • Log-based аналитика
  • Capacity management
  • Текстовая аналитика (e-mail, service-desk)
  • "Гибкие" дашборды и отчеты
  • "интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
  • ...

Является продолжением предыдущих публикаций.


Практические наблюдения


  • очень многие подобные задачи сводятся к математической манипуляции с данными (CRUD системы за рамками, рассматриваем именно разнообразный процессинг и преобразование);
  • 80% задач по манипуляции данными могут быть быстро и эффективно решены "под ключ" путем применения инструментария R;
  • в бизнесе, как правило, задачи и требования быстро корректируются, в т.ч. из-за внешних факторов или полученных промежуточных результатов;
  • "модульные" технологии хорошо приживаются и в ИТ; строительство "монолита" может занять 2-3 года, что сопоставимо со сроком жизни небольшого решения. Гораздо эффективнее быстро собрать "модульную" конструкцию, накопить практического опыта и через 2-3 года скомпоновать новое решение с учетом полученных знаний и прошедших изменений в ИТ и бизнесе.

Типичные “городские легенды” про R


  • R медленный
  • R трудночитаемый
  • R предназначен для стат. расчетов по сложных алгоритмам
  • R предназначен для интерактивной работы

Все это возникает из-за поверхностного изучения темы и используемых инструментов.


Городские легенды — заблуждения из "90-х"


  • R — полноценный язык программирования, а не консольный калькулятор.
  • R хорошо выступает в качестве универсального “клея” между различными платформами и C компонентами — считает быстро!
  • Читаемость кода зависит от опыта разработчика. Современный стиль R — метапрограммирование. Код компактен и быстр.
  • R — это экосистема, позволяет реализовать полный цикл обработки данных от импорта данных до предоставления АРМ и подготовки презентаций.



Предыдущая публикация — «Использование вычислительных возможностей R для проверки гипотезы о равенстве средних».

Комментарии (7)


  1. YuryFedin
    22.04.2019 11:04
    +1

    Может стоит еще разместить на ресурсе доступном в РФ без «танцев с бубнами»?


    1. i_shutov Автор
      22.04.2019 11:23

      Да. Спасибо модератору Виктории. Все оперативно подкорректировал.


  1. lgorSL
    22.04.2019 14:28

    Только начал читать введение, как статья закончилась. Я ожидал как минимум примеров/сравнений, а не просто утверждений типа "R быстрее, выше, сильнее"


    1. i_shutov Автор
      22.04.2019 14:57

      детали в презентации ссылка на которую дана во втором предложении, можно там доглядеть.


  1. dedyshka
    22.04.2019 15:13

    На тему «городских легенд»…
    Что-либо изменилось для ситуации когда данные не помещаются в память целиком или всё также костыли?


  1. i_shutov Автор
    22.04.2019 15:15

    Костыли? О каких именно объемах идет речь?


    1. объемы доступной памяти кардинально изменились.
    2. хорошо еще от задачи идти, может и не будет мусорных данных.
    3. неплохо подумать над алгоритмом.
    4. в радикальном случае для хранения данных используется бэкенд и часть примитивной выборки и предобработки перекладывается на него.


  1. Ananiev_Genrih
    23.04.2019 13:18

    Илья, спасибо за очередную статью.
    Хотелось бы про валидацию отдельной статьи от тебя (хотя бы обзорной): очень уж пакеты в презе заинтересовали.
    к тому же автора одного из этих пакетов уважаю за пакет stringdist)))