Зарубежные компании
1. Apple
Цель внедрения Big Data: использование данных о поведении потребителей для улучшения дизайна и удобства использования продукта.
Компания Apple всегда находилась на вершине технологического прогресса, поэтому неудивительно, что она повсеместно использует технологии Big Data. Более того, компания изначально находится в выигрышном положении, не только в связи с огромной популярностью ее продукции, но и потому что все девайсы Apple буквально созданы для того, чтобы собирать ценную информацию. Сейчас Apple имеет огромное количество данных о том, как мы используем Iphone, Ipad и Macbook, и может делать выводы о том, каким должен быть дизайн и характеристики последней версии девайса.
Более того, кардинальным образом меняется подход к дизайну приложений: теперь не приложение диктует пользователю условия его использования, а потребители дают компании знать, что именно требует исправления в новой версии.
Кульминацией успешного использования Big Data компанией Apple является распространение Apple Watch, ведь теперь возможности сбора данных о пользователе становятся практически безграничными: в компании знают, что носитель часов ел, сколько шагов он прошел, какая у него температура. На данный момент эти данные используются в основном для улучшения здоровья потребителей.
Компания IBM также выразила заинтересованность в данной технологии и заключила с Apple партнёрское соглашение. Вместе компании собираются использовать Big Data для предотвращения распространения болезней, их лечения и профилактики.
Результат: повышение лояльности и уровня удовлетворенности клиентов.
2. GE Oil & Gas
Цель внедрения Big Data: минимизация времени «простоя» производства.
General Electric Oil & Gas – одно из подразделений многоотраслевой корпорации GE, которое занимается производством высокотехнологичного оборудования для нефтегазового сектора. В условиях, когда снижаются цены на энергоресурсы, а сутки «простоя» могут обойтись в 7 миллионов долларов, жизненно важно минимизировать время незапланированной остановки производства, необходимо увеличивать эффективность нефтедобычи.
Благодаря сенсорам, установленным на продаваемом оборудовании, аналитики компании получают оперативную информацию о состоянии нефтедобычи, а для анализа массивов данных в 2012 году была разработана облачная платформа Predix, которая, используя алгоритмы машинного обучения, позволяла инженерам составлять расписания диагностических проверок, улучшать эффективность использования оборудования и снижать время «простоя», выявляя возможные неисправности до того, как они произойдут.
Результат: увеличение ежегодной добычи энергоресурсов и снижение убытков от неэффективного использования оборудования.
3. Nestle
Цель внедрения Big Data: оптимизация производственной цепочки.
Nestle — швейцарская компания, крупнейший в мире производитель продуктов питания. Для фабрик Nestle очень важно соблюдать точность в планировании поставок, так как любое несовпадение во времени либо количестве приобретаемого сырья может привести к задержке производства продукции и неудовлетворенному спросу. Менеджер по продажам компании Davis Wu говорит: “Мы должны точнее планировать поставки, для того, чтобы наша продукция была как можно более свежей, когда она попадет на прилавки магазинов“.
Именно поэтому, компания обратилась к SAS для совместного внедрения SAS Forecast Server, который, используя данные по продажам за предыдущие периоды и оптимизационные алгоритмы, автоматически определяет спрос на материалы и формирует логистические цепочки поставок.
Результат: снижение ошибки при прогнозировании спроса на материалы вдвое, снижение убытков от хранения избыточных оборотных средств, убытков от задержек в производстве и т.д.
4. Intel
Цель внедрения Big Data: снижение себестоимости продукции.
Компания Intel занимается производством компьютерных компонентов, в частности, микропроцессоров, каждый из которых, перед тем как выйти на рынок, должен пройти около 19000 тестов. Анализируя данные по всему производственному процессу, аналитическая платформа способна выявлять, какие тесты проводить не потребуется, оставляя лишь часть необходимых проверок. Таким образом, существенно уменьшилось время тестирования микропроцессоров, а также затраты на проведение тестов.
Результат: экономия 3 миллионов долларов на одной линейке процессоров Intel Core. За счет увеличения использования технологии Big Data в производстве компания ожидает сэкономить еще 30 млн долларов.
Отечественные компании
1. Магнитогорский металлургический комбинат (ММК)
Цель внедрения Big Data: оптимизация расходов материалов при производстве стали.
ОАО «Магнитогорский металлургический комбинат» входит в число крупнейших мировых производителей стали и занимает лидирующие позиции среди предприятий черной металлургии России. В конце июня 2016 года в опытнопромышленную эксплуатацию был внедрен рекомендательный сервис от Yandex Data Factory – «Снайпер», который предназначается для оптимизации расхода ферросплавов и добавочных материалов при производстве стали. Аналитическая платформа обрабатывает параметры плавки: данные по исходному составу и массе шихты, требования по содержанию химических элементов в готовой стали и другие, а затем выдает соответствующие рекомендации.
Результат: предварительное тестирование сервиса показало, что экономия при его использовании составляет в среднем 5% или 275 млн рублей в год.
2. Газпром нефть
Цель внедрения Big Data: выявление причин сбоя работы оборудования.
«Газпром нефть» совместно с Teradata (американская компания специализируется на программно-аппаратных комплексах для обработки и анализа данных) реализовали проект внедрения предиктивной аналитики в процессы управления электроцентробежными насосами. Целью проекта, интеграция которого завершилась в августе 2015 г., стало выявление причин сбоя автоматического перезапуска насосов после аварийного отключения электропитания. В процессе анализа были использованы более 200 млн записей с контроллеров систем управления на 1649 скважинах и, в результате были созданы визуализированные модели цепочек событий, влияющие на самозапуск насосов и карты вероятностного распределения причинно-следственных связей.
Результат: получение информации о ранее неизвестных взаимосвязях в работе насосного оборудования и устранение возникших неполадок.
3. Сургутнефтегаз
Цель внедрения Big Data: оптимизация бизнес-процессов, сокращение времени подготовки отчетов и обработки данных.
«Сургутнефтегаз» — одно из крупнейших предприятий российской нефтегазовой отрасли, первым из российских компаний в 2012 году перешел на SAP HANA — платформу данных и приложений «in-memory» для ведения бизнеса в реальном времени. В результате, внедрение данной платформы привело к масштабным изменениям бизнес-процессов кампании. Разработчикам удалось автоматизировать учет продукции, расчет скользящих цен онлайн, обеспечив специалистов наиболее актуальной информацией, при этом запросы, которые ранее обрабатывались несколько часов, SAP HANA выполняет за несколько секунд. Также происходит значительная экономия аппаратных ресурсов благодаря вышеуказанному in-memory computing, при котором основным хранилищем данных является центральная память сервера, обеспечивающая значительно более высокую скорость операций чем отдельные диски, а также линейной масштабируемости, позволяющей параллельно обрабатывать запросы пользователей в оперативной памяти всех серверов.
Результат: Значительное увеличение эффективности бизнес-процессов в компании.
21 сентября стартует программа «Специалист по большим данным», при предоплате до 21 мая вы получите скидку 15% на обучение.
Комментарии (10)
klementiev
03.04.2017 18:27+2История Сургутнефтегаза скорей об автоматизации процессов, а не о Big Data. Просто наконец сделали CRM по своим процессам, никакого машинного обучения
i_shutov
04.04.2017 10:45+4Уважаемые коллеги.
Понятно, что это публикация в блоге компании, продающей курсы по big data технологиям. Но неплохо бы внести немного ясности в опубликованные кейсы, которые пока выглядят как перепечатки из маркетинговой листовки.
Если не затрагивать кейсы Apple и Intel, несомненно ведущих серьёзную научную и инженерную деятельность и обладающие действительно большими объемами полезных данных, все остальные кейсы вызывают большое подозрение и вот почему.
Сам термин Big Data используется человечеством очень давно. Применительно к вычислительной технике есть интересная статья по истории этого вопроса: Francis X. Diebold, "A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline". В целом склоняются к авторству SGI (John R. Mashey (Chief Scientist), SGI, "Big Data… and the Next Wave of InfraStress"), но в целом этот термин просто означал данные, которые не помещаются в оперативную память, а память тогда была крайне маленькой.
Сейчас же вы легко можете за разумные деньги купить ноутбук с 32-64 Гб и сервер с 512 Гб оперативной памяти.
Единственные цифры, которые упомянуты в кейсах — это 200 млн. записей в Газпроме. По-видимому, это time-series данные. С учётом того, что это 1700 скважин, получается < ~ 100 тыс записей на скважину. А с применением современных open source data science инструментов такие объёмы можно элементарно крутить на офисном ноутбуке. Таким образом, без конкретных цифр все остальные кейсы рассыпаются.
Доступные возможности по обработке больших данные никак не отменяют необходимости следования научному подходу и сохранению критического мышления. Понимание механики процесса (физики, химии, математики,… подставьте что применимо в конкретном случае) позволяет ставить правильные вопросы, высказывать гипотезы и экспериментально подтверждать или опровергать их. Правильная аналитическая модель (ну или численное приближенное вычисление) и её экспериментальная проверка позволяют описать процессы и дать ответ о поведении системы по нескольким ключевым измерениям и показаниям.
Большие данные — не замена интеллекту, а вынужденная необходимость в крайне ограниченных областях (например, эксперименты на адронном коллайдере). "Мусор на входе — мусор на выходе". "Ветер возникает из-за колебания деревьев". И прочие интересные выводы.
В действительности, большинство задач человеческой деятельности описывается Small Data и это вызвано особенностями наблюдаемых объектов.
Пример SAP HANA вообще имеет слабое отношение к большим данным. Использование для задач сводной отчётности (всего то операций +, -, подитог) более подходящего инструмента (колоночной БД вместо реляционной) и не более того. Да и сколько там этих данных? 100 Гб? 200 Гб? 500 Гб?
Большие данные могут возникать не только в хранении и обработке. Есть и другой немаловажный кейс, когда необходимо обрабатывать в режиме реального или почти реального времени потоки поступающих данных, в т.ч. с применением методов машинного обучения. Классический пример — антифрод системы, или анализатор трафика в системах безопасности (например, 50 Гбит входного канала — весьма немаленький поток). Но таких примеров в публикации нет и про них вообще как-то мало говорят.
- Где модели, алгоритмы, схема встраивания в бизнес (операционная аналитика)?
- У профессора Павлова было 40 собак, однако созданная теория успешно описывает поведение миллионов организмов.
- В медицине вы почти всегда имеете малое количество пациентов, которые готовы на себе тестировать новые лекарства. "Why do so many statisticians not want to become a data scientist and why are they not interested in Big Data?"
- все маркетинговые манипуляции с людьми с применением Big Data меняют объект наблюдения и его поведение. Сильно или несильно — другой вопрос, но обязательно меняют. А это означает, что все накопленные ранее исторические данные теряют валидность, поскольку описывают совершенно другой объект наблюдения. Их можно спокойно выкинуть (или сбросить на ленту).
- и многое другое.
"But if you’re working with large data, the performance payoff is worth the extra effort required to learn it.
If your data is bigger than this, carefully consider if your big data problem might actually be a small data problem in disguise. While the complete data might be big, often the data needed to answer a specific question is small. You might be able to find a subset, subsample, or summary that fits in memory and still allows you to answer the question that you’re interested in. The challenge here is finding the right small data, which often requires a lot of iteration.
...
Once you’ve figured out how to answer the question for a single subset using the tools described in this book, you learn new tools like sparklyr, rhipe, and ddr to solve it for the full dataset.", R for Data science, p. 1.3.1.
Отдельно отмечу, что в моем комментарии не надо усматривать никакого негатива. Тема достаточно сложная и обширная, чтобы напускать тумана и оставлять массу недоговорок. Только ясное мышление позволяет решать поставленные задачи. А из вашей публикации вообще становится непонятно, какое именно отношение имеет Big Data к реальному бизнесу и не надуманно ли это.
i_shutov
05.04.2017 09:40Уважаемые коллеги.
Дабы пресечь неконструктивность треда, в первом же предложении декларирую, что в целом я очень уважительно отношусь к вашей деятельности и очень хорошо знаком с сопутствующей закулисным трудом. Поэтому все время, что я потратил здесь, вызвано желанием разобраться в ситуации.
Жаль, что никаких комментариев не удалось получить. Возможно, вы не усмотрели в них вопросов.
Допуская, что это именно так, а не потому что публикации на хабре делаются только в режиме рупора, задам вопросы "в лоб".
Ниже развёрнутые пояснения к этим вопросам.
Вопросы
Упомянутый курс стоит 180 тыс. руб.
- Если предполагается, что эти деньги будет оплачивать текущий работодатель, то дайте серьёзные аргументы, чтобы его убедить.
- Если предполагается, что эти деньги обучающийся будет оплачивать из своего кармана, то приведите хотя бы скелет схемы их отбивки. Естественно, если у обучающегося это не будет проходить по статье "Хобби".
- Есть ли у вас соглашения с работодателями, которые готовы будут взять специалистов, успешно прошедших этот курс?
- Насколько реально востребованы полученные знания? В Data Science сейчас все очень быстро развивается. Почему, нет материалов по Spark, например?
Подобные мысли всплывали у читателей новостной публикации 2015 года, но там тоже все как-то обошли стороной.
Пояснения
- Я давно поглядываю на ваши публикации на хабре. Внутренне с ними сильно не согласен, в т.ч. потому что по ряду российских кейсов видел ситуацию изнутри.
- Честно ходил на пару DataScience Weekend. Ни разу не досидел до конца — доклады являли собой смесь маркетинга и красивых картинок.
- Посчитаем честно какова длительность обучения. Смотрим на программу "Трехмесячный интенсив от лидеров индустрии".
3 дня в неделю * 3 часа * 80% (потери времени на вхождение в работу) * 4 недели/месяц * 3 месяца ~ 86 астрономических часов (11 рабочих дней). - 180К руб/ 11 дней ~ 16К руб/ день. Это примерная ставка по которой в среднем большой интегратор предлагает большой компании своих специалистов (считаем, что у вас накладные меньше в силу малого размера).
- График 3 дня в неделю по три часа — примерный график для любых занятий, требующих достижения определенных результатов. Фитнес\бассейн\рисование\язык\музыка\литература\доп. образование…
Ваша стоимость в размере 60К руб/месяц за такие курсы — это ~ в 3-10 раз выше, чем занятия по всем указанным выше направлениям. У вас действительно дают супер уникальные знания и навыки? - Курсы по DataScience на западных сайтах стоят на порядок дешевле при материале в разы превышающем курс этой программы. DataCamp — $300/год. SharpSight — $600/год. Udemy по скидке — $10 за курс и т.д.
180 тыс кэшом ($3.2K) — в потребительском плане это реально ОЧЕНЬ БОЛЬШИЕ деньги (BIG MONEY).
- Это нормальный самостоятельный отпуск в Европе на двоих (без излишеств и шопинга).
- Это хороший круиз на лайнере на двоих (при заблаговременном выкупе по дисконтным программам).
- Это примерная месячная зарплата для специалиста по большим данным со слов Павла Лебедева (Superjob.ru) на упомянутой выше вашей странице.
- Если новичок возьмёт кредит на это дело (на 2 года, например, т.е. ~ +30% overhead), то месячный платёж составит 180К+30%/24 ~10K руб. Как ему это отбить?
- Если на этот курс пойдёт работающий человек, то кроме потраченных денег он теряет ещё и время. Время — крайне ценный ресурс, а у этого человека это может быть время семьи/подработки. В случае потери подработки — ещё дополнительные затраты. Насколько востребованными будут полученные навыки?
Публикации на хабре подразумевают, что материал будут читать "не блондинки". И могут следовать неудобные вопросы. Очень хочется, чтобы на вопросы следовали ответы. А иначе можно просто запрещать комментарии — так будет гораздо честнее.
a-pichugin
05.04.2017 12:04Илья, спасибо за комментарий! В общем-то все, что вы написали в предыдущем комментарии — верно. Компании не очень любят публиковать в открытом доступе детали своих кейсов, и, действительно, бывает сложно понять — какой объем данных они обрабатывают, в real-time или нет и т.д.
По текущему комментарию. Пунктов много, попробую ничего не упустить из вида.
1. Аргументы для работодателей. Мы их даем, но не в каждом посте просто. Например, в нашем выступлении на Data Science Weekend такая аргументация была. Аргумент-то довольно простой — либо вы сейчас внедряете у себя data science, либо внедрит конкурент и обыграет вас. На мой взгляд, это особо разжевывать не надо уже сейчас. Многие уже это и так понимают, поэтому неоднократно к нам отправляют обучать своих сотрудников.
2. Схема отбивки — интересная мысль, пожалуй, возьмем на вооружение. По факту те, кто к нам приходят, ее и так для себя уже сформировали, но возможно для других будет полезно.
3. Есть соглашение с рекрутинговой компанией, которая оказывает помощь в трудоутройстве: помогает сформировать правильное резюме, подготовиться к собеседованию, найти заинтересованного работодателя. В общем, весь процесс под ключ.
4. Про Spark — у нас весь второй модуль, 1.5 месяца проходит на нем. Действительно, это быстро развивающаяся область, поэтому мы постоянно адаптируем программу. Как пример — тот же Spark. Во время предыдущего запуска вышла версия 2.0, мы переделали все наши учебные материалы под датафреймы.
5. Соглашаться или не соглашаться — во-первых, ваше право. Во-вторых, вы, действительно, можете знать больше о каких-то кейсах.
6. Data Science Week — мы выбрали для себя правильным организацию конференции для широкой аудитории, поэтому продвинутому человеку, как вам, там может быть порой, действительно, скучно. Таким же образом, не очень продвинутому будет скучно на DataFest, потому что он ничего не понимает, о чем говорят.
7. Ок. Не очень понимаю, смысл этих расчетов. Да, посчитали чистое время аудиторной работы. Во-первых, если просто весь материал уложить в 11 дней подряд по 8 часов, то выхлоп будет намного хуже, чем от размеренного распределения. Во-вторых, аудиторная работа — на нашей программе, это второстепенная часть. Довольно много работы проходит дома над нашими лабораторными заданиями. Это еще примерно 20 часов в неделю.
8. Ок. Пускай ставка такая же. Но через эти пресловутые 11 дней расходы на обучение закнчиваются.
9. Про уникальность — фитнес-центров, школ рисования и т.д. намного больше, чем буткэмпов по data science. Поэтому уже здесь уникальность закладывается.
10. Проблема в том, что вы сравниваете нас с сайтами. Они для нас конечно конкуренты, но второго уровня. Конкуренты первого уровня — это все буткэмпы, которые готовят людей на текущий момент в сфере data science. Я уже писал в комментарии к одному из постов, что в нашем случае есть добавленная ценность по сравнению с онлайн-курсами, за которую человек и платит. Продублирую и здесь:
1. Упаковка продукта происходит таким образом, что человек получает нужную инъекцию знаний и навыков, которая позволяет ему совершить переход с одной карьерной траектории на другую гораздо быстрее и в более приятном с точки зрения процесса варианте. Чтобы упаковать продукт таким образом, нужно быть хорошим специалистом в области современного (!) образования. И в этом вопросе вообще далеко не каждый разбирается — как правильно организовать программу, как правильно выстроить занятие и т.д.
2. Вероятность того, что человек пройдет программу до конца и получит то, зачем пришел существенно выше. В онлайн-курсах, например, процент людей, которые доходят до конца — в среднем 15%. Редкие курсы способны преодолеть порог в 40%. Их единицы. Вся проблема в том, что доходят люди, обладающие высоким уровнем дисциплинированности. Своего рода супермены. За что бы они не взялись, они доводят до конца. Это те люди, которые всегда доедают блюдо, потому что просто они не могу его не доесть, им по барабану на свои желания. Ничего плохого против них не имею, как и не считаю, что остальные люди ущербные.
3. Нетворк. Важная часть, которая порой недооценивается. Люди приходят не за знаниями и навыками, люди приходят за изменениями. Знания и навыки — это только ингридиенты, которые помогают эти изменения совершить, но не единственные. Часто я проходил онлайн-курсы, заканчивал и оставался с вопросом «А дальше-то что?» Куда бежать, кому показывать (ни для кого онлайн-курсы не являются значимым фактором для того, чтобы взять человека на работу). Нетворк — это именно тот дополнительный ингридиент, который помогает дальше воплощать желаемые изменения в жизнь — что бы это не было: трудоустройство, запустить новое направление на текущем месте работы, запилить стартап — что угодно.
11. По поводу кредита. Во-первых, мы предоставляем беспроцентную рассрочку. Во-вторых, люди и больше 10к на другие нужды как-то отбивают. Но по разбивке — да, еще раз — идея хорошая. Возьмем на вооружение.
12. Да, это инвестиции в человеческий капитал. Как показывает практика — навыки, востребованные. Как пример, один из работодателей уже 3 раз отправляет к нам учиться своих сотрудников. Их уже под 10 человек будет. Сейчас уже идет 6 запуск программы. С плохим продуктом вряд ли бы нам это удалось.
Еще раз спасибо за вопросы, хоть и действительно неудобные. Извиняюсь, что не ответили более оперативно. Тоже нас поймите, что вокруг полно троллей, не готовых обсуждать что-то конструктивно, порой бывает непросто отличить тролля от обычного человека.
mephistopheies
а расскажите пожалуйста, что входит в технологии Big Data, кроме Hadoop/Spark?
lash05
Это термин для тех, кто не в теме…
mephistopheies
типа это просто buzzword? а это что просто пиар статья без содержания?
lash05
Я бы назвал маркетинговым «слоганом». Трудно подобрать даже русское определение (синоним) понятия «слоган».