Применение искусственного интеллекта и машинного обучения в задачах промышленности не настолько распространено, как в других сферах и отраслях экономики вроде банкинга, ритейла, телекома. При этом современные промышленные объекты часто генерируют и собирают большое количество данных, а методы машинного обучения обеспечивают эффективное использование этих данных для решения различных устоявшихся типовых задач: выявления неисправностей и отказов, прогноз качества продукции, определения остаточного срока службы оборудования и многих других.

Как раз про решение одной из типовых задач - задачи определения остаточного ресурса я и рассказывал на конференции https://datastart.ru в ноябре 2022 года, а также на митапе ИИшницы “ИИ в индустрии”, откуда даже сохранилось видео. В этом посте я соберу, структурирую и немного дополню информацию из докладов.

О технической диагностике

На основании ГОСТов и международных стандартов в процессе диагностирования машин можно выделить 4 основных этапа: Обнаружение аномалий в работе или неисправностей, Локализация неисправности или выход на конкретные сигналы, вносящие наибольший вклад в обнаружение неисправности, Выход на диагноз, представляющий собой определение коренных причин возникновения неисправности, а также Прогноз развития неисправности или, другими словами, оценка (прогноз) остаточного ресурса оборудования. Высокое качество решения этих задач, благодаря эффективному внедрению технологий анализа данных позволяет промышленным предприятиям перейти на стратегию технического обслуживания по состоянию (condition-based maintenance). Типичная схема цикла диагностирования оборудования представлена на рисунке ниже.

Схема цикла диагностирования оборудования
Схема цикла диагностирования оборудования

В этом посте речь идет о задаче оценки остаточного ресурса, при этом результат решения задач обнаружения неисправностей, локализации и выхода на диагноз могут как использоваться, так и не использоваться при прогнозе остаточного ресурса, но все зависит от применяемого подхода.

О задаче определения остаточного ресурса

Для начала давайте дадим определение (согласно ГОСТ Р ИСО 13381-1-2016. Контроль состояния и диагностика машин. ПРОГНОЗИРОВАНИЕ ТЕХНИЧЕСКОГО СОСТОЯНИЯ. Часть 1. Общее руководство):

Остаточный ресурс - оставшееся время до перехода машины в неработоспособное состояние (или до перехода в состояние, при котором машине потребуется ремонт или замена).

Проиллюстрировать определение можно следующим образом:

Иллюстративный пример задачи определения остаточного ресурса
Иллюстративный пример задачи определения остаточного ресурса

То есть в каждый момент времени мы можем оценить время до возникновения критического состояния, обозначенного красной точкой. При этом время может быть оценено в днях, полетах, циклах, пробегах, плавках или каких-то других величинах, все зависит от постановки задачи и доступных данных.

Решение задачи определения остаточного ресурса дополнительно позволяет выявлять факторы, влияющие на сокращение остаточного ресурса (если вдруг красная точки согласно нашему прогнозу начинает двигаться влево, то есть расстояние до нее сокращается), и устранять нежелательное воздействие факторов в настоящем и будущем. Кстати, появление аномального состояние (не путать с неработоспособным, ведь с незначительными аномалиями оборудование иногда может работать годами) может являться одним из факторов, учитываемым в модели, например, в виде времени работы узла оборудования в аномальном состоянии.

Также важно немного разобраться с терминологией, поэтому перечислю различные синонимы остаточного ресурса, которые я встречал в литературе (означают они примерно одно и то же):

  • Remaining useful life (RUL)

  • Time to failure (TTF)

  • Оставшееся время жизни

  • Residual useful life

  • Remaining lifetime

Почему эта задача важна?

Зная остаточный ресурс, технологический персонал, инженеры, операторы, ремонтные службы, диагносты могут:

  • планировать ремонты

  • оптимизировать стратегию технического обслуживания оборудования (заменять большие ремонты мелкими, сокращать количество процедур и манипуляций с оборудованием и тд)

  • оптимизировать режимы работы и загрузку оборудования

  • избегать и сокращать количество и длительность внеплановых остановок 

Поэтому данная задача является одной из важнейших в диагностике и критической для перехода к стратегии обслуживания по состоянию.

Данные

При решении задачи нам могут быть доступны различные данные, поэтому некоторые подходы и методы могут быть неприменимы. Давайте классифицируем потенциально доступные данные, чтобы при представлении методов опираться на то, какие данные необходимы:

  • Данные о работе оборудования (технологические параметры, сигналы с датчиков за весь срок работы оборудования с момента запуска до моментов отказа):

  • Данные о времени работы оборудования до отказа (длительность “пробегов” до отказа)

  • Информация о допустимых значениях (контрольные пределы) для отдельных сигналов или индикаторов технического состояния, достижение которых сигнализирует выход из строя

Подходы к решению задачи

  1. Статистическая оценка

Мы можем использовать функцию распределения времени до отказа, построенную на исторических данных, для оценки остаточного ресурса оборудования:

Схема оценки остаточного ресурса через статистическую оценку
Схема оценки остаточного ресурса через статистическую оценку

Это один из самых простых методов, для которого нужны лишь множество данных о длительности работы оборудования до отказа. Также можно рассчитать характеристику “функция выживания” (survival function или survival model) = 1 - cdf. Добавляя какие-то дополнительные (косвенные) данные о работе оборудования, можно повышать качество работы метода, например, выделяя различные режимы и строя для каждого режима свою функцию распределения (скорость деградации).

  1. Прогноз параметров

Оценка остаточного ресурса основана на прогнозе параметров до пересечения контрольного предела. Такой подход также называют подходом оценки деградации (degradation model) и различают 2 основных закона деградации:

  1. Линейная деградация: прогноз представляет собой прямую, угол наклона которой определяется историческими данными. Как правило, применяется, если система не накапливает повреждения (деградацию).

  2. Экспоненциальная деградация: прогноз представляет собой экспоненту. Как правило, применяется, если система может кумулятивно накапливать повреждения.

Схема оценки остаточного ресурса через прогнозирование параметров
Схема оценки остаточного ресурса через прогнозирование параметров

 В данном случае есть 2 варианта выбора параметров для прогноза:

  1. Прогноз сигнала с датчика

  2. Прогноз индекса технического состояния

Для обоих вариантов необходимы данные о работе оборудования (технологические параметры, сигналы с датчиков), но для второго случая на их основе строится индекс или индикатор технического состояния (health indicator), который далее прогнозируется. Индикатор технического состояния может представлять из себя компоненту из PCA, результат агрегации различных показателей, невязку между моделью нормального режима работы и реальными данными и тд, вбирая в себя как можно больше информации, не основываясь только на одном сигнале. Также необходимы контрольные пределы или информация о времени работы оборудования до отказа (длительность “пробегов” до отказа), с помощью которых вместе данными о работе оборудования можно рассчитать контрольные пределы самостоятельно (при достаточной статистике). Прогнозировать параметры можно разными методами, некоторые подробно разобраны в лекции от ODS по ссылке (с кодом!).

  1. На основе моделей регрессии

В данном случае мы приводим задачу к классической регрессионной постановке. Для этого мы выделяем из временных рядов (технологических параметров или индексов технического состояния) признаки, например, с помощью библиотеки TSFresh. Схема выделения признаков представлена на рисунке ниже:

Схема оценки остаточного ресурса с помощью модели регрессии
Схема оценки остаточного ресурса с помощью модели регрессии

В результате чего у нас формируется выборка признаков - X, и нам нужна выборка ответов (времен до отказа) - y. Таким образом, для данного подхода нужны данные о работе оборудования (технологические параметры, сигналы с датчиков) и данные о длительности работы оборудования до отказа (длительность), а задача может решаться как классическая задача регрессии на табличных данных любыми SOTA (читай, ансамблевыми) методами.

  1. На основе схожести с паттернами из прошлого

Последний из наиболее распространенных подходов к оценке остаточного ресурса основан на сопоставлении текущего пробега или состояния с историческими данными. Исторические пробеги мы можем обрезать до того же момента времени, что есть у текущего пробега. Подход также известен как модель близости (similarity model).

Схема оценки остаточного ресурса на основе схожести с паттернами из прошлого
Схема оценки остаточного ресурса на основе схожести с паттернами из прошлого

Для данного подхода есть 2 основных варианта реализации:

  • Прямое сравнение временных рядов, используя метрики близости, например, Dynamic Time Warping (DTW) или методы кластеризации/классификации, основанные на близости. Примеры с кодом можно найти здесь, также можно воспользоваться готовыми библиотеками, например, tslearn.

  • Выделение признаков из временного ряда и дальнейшее сравнение полученных векторов признаков (метрики близости, кластеризация).

В результате в качестве остаточного ресурса мы выбираем значение ближайшего из истории пробега или осредненного (или любая другая агрегация) по группе (кластеру) пробегов. Для реализации подхода требуются данные о работе оборудования (технологические параметры, сигналы с датчиков) и данные о длительности работы оборудования до отказа (длительность).

Итоговая схема выбора подхода в зависимости от доступных данных
Итоговая схема выбора подхода в зависимости от доступных данных

Выявление факторов, влияющих на износ

Как мы выяснили ранее, важной сопутствующей задачей при оценке остаточного ресурса является определение факторов, которые на этот ресурс влияют и влияют в первую очередь негативно, вызывая повышенный износ. Под факторами, вызывающими износ оборудования, стоит в первую очередь понимать конкретные сигналы, указывающие на локализацию проблемы, приводящей к аномальному состоянию и износу оборудования. Эта информация может быть передана персоналу для указания, например, на нежелательные режимы работы. Далее можно совместно с экспертами в доменной области проводить анализ и выяснять, что становится причиной отклонения тех или иных сигналов от нормальных значений и деградации оборудования на основе этих показаний.

Стоит разделить 2 понятия:

  1. Важные признаки для модели в целом: Факторы, оказывающие наибольшее влияние на результат оценки остаточного ресурса (самые важные признаки модели).

  2. Вклад признаков на данном показании модели: Факторы, оказавшие наибольшее влияние (объясняющие) на текущее оценку остаточного ресурса.

То есть влияющими на износ в терминах первого понятия являются факторы, уменьшающие прогноз модели, а в рамках второго понятия - факторы, повлиявшие на низкое значение текущего прогноза. Для моделей машинного обучения такие библиотеки как Shap могут выдавать как первые, так и вторые факторы. 

Для каждого из перечисленных подходов выявление факторов производится по-своему:

  1. Статистическая оценка: возможно только при наличии дополнительных косвенных данных, например, разные наклоны кривой распределения (=скорость деградации) для разных режимов работы.

  2. Прогноз параметров: в качестве факторов, влияющих на износ оборудования, могут выбираться именно те сигналы, которые раньше других пересекли контрольные пределы.

  3. На основе моделей регрессии: feature importance для моделей машинного обучения, Shap и другие методы оценки важности признаков и объяснения показаний моделей.

  4. На основе схожести с паттернами из прошлого: может быть как в предыдущем пункте (если строятся модели машинного обучения), либо в качестве факторов, повлиявших на износ оборудования, берутся те, которые в итоге повлияли на фактический износ оборудования для отказа оборудования из прошлого, с которым схож текущий цикл/прогон. Эта информация может быть доступна по итогам анализа отделом диагностики.

Кейсы решения задачи

Расскажу о паре практических кейсов по решению задачи определения остаточного ресурса их своего опыта.

Кейс 1 - остаточный ресурс гильз МНЛЗ

Начнем с пары терминов:

Машина непрерывного литья заготовки (МНЛЗ) – это агрегат, который позволяет преобразовать жидкую сталь в твердую заготовку заданного сечения, из которой в дальнейшем производится прокат, например, арматура.

Гильза кристаллизатора – наиболее ответственная и быстроизнашиваемая часть кристаллизатора МНЛЗ. Гильза представляет собой водоохлаждаемую медную трубу круглого или профильного сечения. Расплавленный металл, контактируя со стенками гильзы, кристаллизуется и, тем самым, формируется первичная твердая оболочка слитка.

Более подробно об установке и процессе можно почитать в статье от Евраза.

Основная проблема, с которой сталкивается производство при эксплуатации гильз, это образование дефектов поверхности медной трубы гильзы, искажение профиля её внутренней полости. При этом нарушается тепловой режим работы, что, в свою очередь, отражается на качестве получаемых слитков: появляются дефекты формы (например, диагонали квадратного слитка оказываются неравны, возникает так называемый дефект “ромбичность”), изменяются размеры сторон, могут появиться трещины в углах. Указанные дефекты приводят к проблемам в следующем переделе (в прокатке): снижается качество продукции, растет количество брака, что неблагоприятно влияет на экономику производства.

Пайплайн решения задачи
Пайплайн решения задачи

Размеры гильзы с определенной периодичностью измеряются по всей длине, при отклонении этих размеров от основных параметров происходит их отбраковка.

Может наблюдаться уменьшение срока службы медных гильз кристаллизатора на производстве, что может быть связано с изменением параметров работы самой МНЛЗ (температура входящей стали, температура охлаждающей воды и пр.), поэтому данные признаки также включены в модель. Модель строится для оценки остаточного ресурса, изменяющегося в тоннах или оставшихся плавках.

Схема решения
Схема решения

Кейс 2 - остаточный ресурс силовых трансформаторов

Большое число трансформаторов имеют возраст более 25 лет. Это делает еще более актуальной задачу своевременного обнаружения неисправностей, так как техническое обслуживание и ремонт требует корректного планирования для снижения издержек. Как мы знаем, решение задачи оценки остаточного ресурса - важнейшее звено для корректного планирования ремонтов, особенно с учетом солидного возраста оборудования, часто превышающего установленные пределы эксплуатации (не пугайтесь, продление срока эксплуатации происходит только после тщательной диагностики).

Кстати, про решение задачи поиска аномалий для трансформаторов можно почитать в нашей статье на архиве.

Схема решения
Схема решения

В качестве исходных данных мы используем результаты ХАРГ (хроматографического анализа растворенных газов), то есть у нас есть концентрации четырех измеренных каждые 12 часов в трансформаторном масле газов (H2; CО; C2H4; C2H2), то есть данные о работе оборудования, и данные о времени работы оборудования до отказа (длительность пробегов). В итоге мы обучили модель со средней абсолютной ошибкой в 27 дней.

Больше кейсов и датасетов для тренировки, как и общих кейсов применения машинного обучения в промышленности, можете найти в моем обзорном репозитории:

Комментарии (17)


  1. Dynasaur
    00.00.0000 00:00
    +5

    А как решается вопрос с редким и дорогим оборудованием? Понятно, что наработать статистику по отказам массовых узлов типа подшипников, электродвигателей, насосов, задвижек не сложно, если их сотни и тысячи. А если это уникальная турбина, которых всего штуки три, но все разных модификаций и изготовлены с интервалом в 5-10 лет?


    1. BugM
      00.00.0000 00:00

      Покупается техподдержка изготовителя с понятным и устраивающим вас SLA. И это его проблема. Пусть хоть вторую тащит за свой счет, если первая ломается слишком часто.


      1. zatim
        00.00.0000 00:00
        +3

        Это не всегда возможно. Если производитель уникального оборудования один, то у него есть соблазн придерживаться философии "куда вы, нахрен, денетесь с подводной лодки" и либо предоставлять техподдержку на неприемлимых условиях либо не предоставлять ее вовсе.


        1. BugM
          00.00.0000 00:00

          На практике такого не бывает. Такого производителя рынок быстро уничтожает. Покупатели идут к тому кто пусть и похуже, но зато готов поддерживать свое оборудование.

          Те же турбины из оригинального сообщения Сименс без проблем поддерживает и обслуживает. Хотя и поставщик и оборудование уникальнее некуда.


    1. Katser Автор
      00.00.0000 00:00

      Честно говоря, не знаю, как решается вопрос с определением остаточного ресурса, наверно, для такого оборудования становится оправдано строить полноценные физ модели, а оттуда и данные можно нагенерировать для обучения моделей, и отклонение состояния от модели находить, и ресурс считать. Аномалии в таком случае (маленькая статистика отказов, уникальность оборудования), кстати, ищутся на основе построения моделей нормального режима работы (физические, математические, статистические и тд), а после детектируется отклонение от нормального режима работы.


    1. eteh
      00.00.0000 00:00
      +1

      При проектировании оборудования обычно производятся расчеты показателей надежности и запаса прочности. Соответственно срок службы и можно принять при эксплуатации в нормальных условиях равным требованиям стандартов промышленности. Учет аномалий, конечно, только опытным путем можно наработать.


  1. nikolay_n_komarov
    00.00.0000 00:00

    Так можно рассчитать любое устройство, где идёт поток сигналов, разве, что по необходимости организовать сбор. Начался рассвет Кибернетики, раньше не хватало вычислительных мощностей для такого массового применения.


  1. vadimr
    00.00.0000 00:00
    +1

    Не увидел упоминания о ресурсе изделия по данным паспорта. Он вообще никак не учитывается в расчёте остаточного ресурса? Казалось бы, он сам по себе должен опираться на расчёт надёжности.


    1. Arhammon
      00.00.0000 00:00
      +1

      Ресурс по паспорту - это в большинстве случаев черный ящик. Далеко не всегда указывается почему именно такой ресурс прописан, а если указано - то поданным ускоренного тестирования в условиях повышенных температур, нагрузок итп. а дальше по неизвестной формуле 100ч при 105 градусах превращается в 100000ч при 65 градусах, естественно 100000ч никто не проверял...


      1. vadimr
        00.00.0000 00:00

        Тем не менее, не полезно ли было бы назначить паспортному ресурсу тоже какой-то априорный вес в модели?


        1. Arhammon
          00.00.0000 00:00

          Если понятно с какого потолка взяли этот ресурс, то так и делается вроде. По жестким дискам в датацентрах слышал активно используются данные изготовителя о наработке до отказа.

          ПС. Хотя копнул, там c MFTB тоже не все гладко и его вообще перестали указывать некоторые производители...


  1. Lomaxart
    00.00.0000 00:00

    Кстати, все работы по ML, в основном в своей математической базе придерживаются регрессионного анализа. Также как и гильза (если сортовой прокат), или плиты кристаллизатора - это все узловые компоненты, и на большинстве предприятий (скажем небольшой комбинат в Липецке) имеет установленные регламентов (по плавкам) сроки обслуживания на основе статистических данных. И более - менее они подходят, даже без использования разных подходов. Кстати работ по прогнозированию самой МНЛЗ (УНРС, где как обзывают) практически минимально. Почему не использовать алгоритмы мультиагентного обучения с подкреплением? Так как раз сигнал идет от среды, и действия других агентов? Хотя бы Q-Nash?


    1. Katser Автор
      00.00.0000 00:00

      Согласен в целом, а по поводу мультиагентного обучения затрудняюсь ответить - не специалист, в целом RL очень мало в промышленности, знаю всего несколько кейсов, например, Северсталь [youtube][Arxiv]. Проблемы, насколько я знаю, в объеме и качестве данных, трудоемкости подходов с RL (тут и низкая квалификация дата сайентистов часто), а также невозможности проводить какие-то эксперименты с оборудованием для сбора большего числа данных и тестирования подходов в разных режимах.


  1. SanSanychSeva
    00.00.0000 00:00

    Надо же, какая богатая библиография кейсов в отечественной металлургии - вот бы по телекому так! Кстати, на мой взгляд, автор излишне оптимистично поместил отечественный телеком в список индустрий в развитыми юзкейсами по DA/DS/ML: действительно наши гранд-телекомы обзавелись здоровенными отделами Big Data & AI, вот только для самого оператора эти отделы успешно работают исключительно в области маркетинга, CRM и продаж, плюс создают собственные "on-the-top" продукты для абонентов - то есть в чистом ритейле! Ни о каком использовании DA/DS для нужд эксплуатации сети (собственно базы индустрии телеком) не идет и речи, хотя там такое же оборудование с ресурсом и огромными расходами на его обслуживание. Так уж случилось, что с ноября прошлого года я активно общаюсь с российской мобильной тройкой + госоператорами на уровне Отделов по Эксплуатации сетей и услуг - я был поражен: все буквально сказали мне, что применение предсказательной дата аналитики - это что-то сверх сложное, а в круге их задач актуальными являются вопросы попроще. Да, лет 5 назад, якобы, были большие ожидания от big data, но выстроить взаимодействие с отделами даты по кейсам для эксплуатации сети не вышло - в результате после нескольких безрезультатных встреч с датой технари остались работать с сетью по старинке, а дата-сайнтисты вернулись к более понятным для них кейсам маркетинга, продаж и продуктового менеджмента.

    PS: если кто-то прочитавший данный комментарий знает линки на сообщества по дата-кейсам задач эксплуатации сетей связи - просьба не счесть за труд поделиться! Заранее благодарен.


    1. Katser Автор
      00.00.0000 00:00
      +1

      Кстати, изнутри не знаю об успехах DS в телекоме, а ориентируюсь на активность компаний в DS сообществе (треки на конференциях, доклады с кейсами, хакатоны и тд), вот несколько примеров:

      поэтому очень интересно было прочитать такие детали, спасибо за комментарий!


      1. SanSanychSeva
        00.00.0000 00:00

        Спасибо за ссылки - меня как раз заинтересовало, после общения с людьми из эксплуатации сетей, а чем же живет в таком случае телекомовская биг-дата.


        1. SanSanychSeva
          00.00.0000 00:00

          Да вот уже, собственно, успел и посмотреть все ссылки - это как раз то, о чем я и пишу: 50% академической науки, 50% маркетинговых кейсов, не отличимых от кейсов обычных интернет-провайдеров - мобильной сети там ноль! Это то же, что делает, например, Яндекс, у которого своей телеком сети нет.

          Поэтому еще раз выскажу свое впечатление: сидящий на щедрых деньгах от сетевого бизнеса типичный отдел биг-даты нашего оператора связи предпочитает игнорировать существование проблем у какой-то там сети. В то время, например, как уже с 2015 года все мобильные операторы России столкнулись с недостаточной производительностью систем мониторинга производительности сетей связи - расчета многочисленных KPI в онлайн, а также сбора и распределенной предобработки гигантских объемов данных на сетевых медиаторах (а сегодня еще больших в стандартах 4G и 5G) - очевидно требующих hadoop-подхода и обработки в реальном времени больших данных!