Судя по темпам роста сложности сети огромное количество майнингового оборудования вводиться в эксплуатацию каждый день. Темпы высокие и у компаний эксплуатирующих майнинговое оборудование в промышленных масштабах нет времени на проектирование полноценных дата-центров на должном уровне безопасности и автоматизации.

Успешный запуски и опыт эксплуатации оборудования в первые дни или даже месяцы порождает уверенность в надежности работы оборудования. А клиенты, размещающие оборудование в майнинг отелях, уверены что их “железо” в надежных руках. Давайте рассмотрим какой же он, майнинг отель 21 века?

АСУ в Майнинге


АСУ означает «Автоматизированная Система Управления». Такая система может управлять и производственными процессами, и автоматической парковкой, и газовым котлом, а также будет полезна и в майнинге.

На заре развития промышленности рядом с каждым оборудованием стоял специалист, который управлял им и следил за исправностью его работы. Так, лифтёры управляли лифтом, швейцары открывали двери, а на самолётах были бортинженеры.

Сегодня, ситуация в майнинге напоминает прошлый век. В майнинг отелях для электрозащиты применяют электрические автоматы и считается что такого уровня защиты вполне достаточно. Включение и выключение майнеров осуществляется обслуживающим персоналом, нехитрым способом — выдёргиванием вилки из розетки. Система вентиляции часто автоматизирована и стабилизирует температуру в помещении, что вполне достаточно. Сложнее всего дела обстоят с системой пожаротушения. Чаще всего майнинг оборудование располагается в промышленных помещениях большой площади и с высокими потолками. При таком подходе газовые системы пожаротушения применять дорого, а порошковые системы неэффективны. Вот по этой причине в большинстве майнинг отелей системы пожаротушения не предусмотрена.

А теперь давайте представим как должен выглядеть современный майнинг отель 21 века. Первое что хотелось бы сделать для повышения эффективности и безопасности — исключить человеческий фактор и использовать АСУ для управления всей системой. Элементы АСУ — это шкаф автоматизации, исполнительные механизмы, датчики и контроллер. В самом шкафу располагается множество блоков: ПЛК (Программируемый Логический Контроллер), модули расширения различных интерфейсов, электрические автоматы, силовые шины, преобразователи сигналов от датчиков, преобразователи сигналов для исполнительных элементов, частотные преобразователи и тд. На передней панели шкафа обычно установлены элементы управления — кнопки, выключатели и индикаторы режимов работы.

Логический контроллер — очень надёжное устройство. Вообще, слово надёжность — это второе имя АСУ. Представьте, что будет, если лифт неожиданно решит открыть двери во время движения, а самолёт выдвинет шасси. Вот поэтому безопасности и бесперебойности работы АСУ всегда уделяется максимум внимания.

От шкафа АСУ идёт множество проводов к датчикам и исполнительным элементам. Например, в системах вентиляции можно встретить датчики температуры, скорости потока, давления и исполнительные элементы — актуаторы управляющие заслонками.

Важным элементом АСУ является программа ПЛК. Она определяет поведение системы в различных ситуациях, управляет исполнительными механизмами, обрабатывает данные от внешних датчиков.

АСУ или оператор?


Часто за большими и дорогостоящими установками всё же следит человек- оператор. Оператор сидит за пультом АРМ (Автоматизированным Рабочим Местом). На экране мониторов такого пульта видны параметры работы всей системы. Наглядная мнемосхема достоверно отображает множество данных, и одного взгляда на экран хватает, чтобы понять, что сейчас происходит с оборудованием. Все данные и органы управления сведены в одном месте, этакий своеобразный пульт управления маленькой вселенной.

Если сравнить систему АСУ с сотрудником, который мог бы следить за системой и управлять ей вручную, можно выявить ряд очевидных преимуществ. АСУ работает 24 часа в сутки, не устаёт, не выходит покурить, не сидит соцсетях, не отвлекается на телефонные звонки и не допускает ошибок. А выполняемые процессы предсказуемы и повторяемы. Также, не надо забывать, что человек не может реагировать на ситуацию с необходимой скоростью. Например, сложно представить, что возможно нажать на специальную кнопку в машине, чтобы сработали подушки безопасности, когда это необходимо. Электроника же делает это надёжно, с заданной скоростью и только тогда, когда это действительно необходимо; именно в ту долю секунды, когда это будет безопасно и эффективно.

Для промышленного майнинга необходима слаженная работа всех систем: вентиляционной и электрораспределительной систем, системы пожаротушения, локальной сети, охранной системы, системы контроля доступа, плюс необходимо обеспечение надёжного доступа к сети Интернет с резервным каналом связи. Всеми этими системами необходимо управлять эффективно и в реальном времени.

Майнинг — процесс сложный, оборудование для добычи криптовалют очень дорогостоящее, а любые простои приводят к существенным финансовым потерям. Обслуживание и частые ремонты, опять же, вызывают череду новых простоев и приводят к большим убыткам. Также известны случаи пожаров на майнинг фермах с потерями в миллионы долларов. Все эти факторы указывают на то, что промышленная эксплуатация майнингового оборудования — ответственный и сложный процесс и оставлять его без автоматизации нельзя!

Объекты для промышленного майнинга


Существуют два основных вида объектов для промышленного майнинга: майнинг отель и мобильный контейнер. В первом случае майнинговое оборудование располагается на стеллажах внутри здания. Как правило, в таких зданиях много свободного пространства, высокие потолки, много места для размещения вентиляционного и электрораспределительного оборудование. Но, с нашей точки зрения, имеется один существенный минус – стационарность таких объектов. Во втором случае оборудование располагается внутри мобильного контейнера. Места здесь намного меньше, размещение оборудования плотнее, потолки ниже. Металлические стенки контейнера обладают плохой теплоизоляцией: зимой, во время обслуживания, выключенный контейнер промерзает, летом — сильно нагревается на солнце. В здании, где расположены майнинговые фермы, обычно сидит специалист, который занимается настройкой параметров и контролем работы оборудования, техническим обслуживанием и ремонтом системы. Рядом с контейнером такой специалист находиться не может, и, как правило, он приходит только по необходимости для сервисного обслуживания, а в основной период времени находится за пультом АРМ.

АСУ для майнингового контейнера


Сейчас на рынке появилось множество решений в виде контейнеров для промышленного майнинга. Они отличаются не только конструктивным исполнением и принципом работы системы охлаждения, но и системами АСУ. Чаще всего внутри таких контейнеров находится электрораспределительный шкаф, состоящий из вводного автомата и узла учёта электроэнергии. Из шкафа множество силовых кабелей тянутся к розеткам для майнеров, расположенных на полках. Многие, но далеко не все решения, используют отдельные автоматы на каждую розетку. С точки зрения правил эксплуатации электроустановок, отдельные автоматы на каждый майнер просто необходимы, но часто производители пренебрегают этим простым правилом. К примеру популярный ASIC Antminer S9 потребляет порядка 1300 Вт и отсутствие простого автомата в случае неисправности БП может стать причиной пожара. Таким образом, для повышения безопасности, использование индивидуальных автоматов необходимо.

Также в контейнере размещается сетевое коммутационное оборудование обеспечивающее доступ в Интернет. Что же касается системы вентиляции — тут всё гораздо интереснее и сложнее. Чаще всего всего для охлаждения применяется фрикулинг. Внутри контейнера необходимо поддерживать постоянную и комфортную для майнинг оборудования температуру в 30-40 °С, и делать это можно регулируя обороты двигателя приточной установки. Как правило, применяются специализированные частотные преобразователи для вентиляционных установок. И в целом, весь комплекс оборудования выглядит логичным и работоспособным. Производители заверяют, что контейнер эффективен, безопасен и полностью готов к работе.

Наш опыт форс-мажорных ситуаций в майниге


Давайте рассмотрим следующую ситуацию. Контейнер работал зимой несколько дней, после чего произошло технологическое отключение электроэнергии на 2 часа. А на улице стоит температура –30 °С. Контейнер за эти 2 часа промерзает, вся электроника, соответственно, остывает до тех же –30 °С и спустя два часа подаётся электропитание в контейнер… К слову, это достаточно типичная ситуация в суровых зимних условиях. В большинстве предлагаемых на рынке контейнеров нет циклограммы запуска, где система с АСУ должна следить, что температура внутри контейнера не соответствует температуре эксплуатации электроники, и запускать предпусковой прогрев. И только по достижении положительной температуры, начинать запуск электроники. При больших отрицательных температурах большинство бытовой электроники, таких как материнские платы, процессоры и память работать не будут. Также существует риск поломки майнингово оборудования.

Другой существенной проблемой является одновременное подключение большого количества блоков питания к электросети. Например, на блоках питания без системы плавного пуска стартовый ток около 100 ампер, а 10 блоков питания уже дадут 1 кА! Представьте теперь, что у вас 10 контейнеров, в каждом из них находится по 100 блоков питания. При одновременном старте пусковой ток будет иметь недопустимое значение и может повредить электрораспределительное оборудование. Чтобы избежать этого, АСУ должна производить включение вычислительных блоков последовательно, в соответствии и циклограммой запуска.

Примечание. Существует два типа блоков питания: с плавным пуском и без. В первом случае емкости выпрямителя заряжаются через термистор малым током, что снижает импульс тока при подключении к электросети, однако он остается достаточно высоким. Во втором случае в момент включения емкости заряжаются максимальным током, что приводит к вышеописанным проблемам даже при подключении нескольких БП. Чаще всего эти факторы никто не учитывает.

А что если горим?


Ещё ситуация. Если в контейнере установлена система пожаротушения (а многие производители на ней, почему-то экономят), то она может сработать только по двум причинам: превышение температуры или наличие задымления. Существуют решения и с применением тепловизоров, но они обладают рядом ограничений. Приточная установка подает примерно 50 000 м3 воздуха в час. При таком потоке наличие даже сильного очага возгорания не прогреет воздух, а дым будет выдуваться наружу ещё до того, как попадет на датчик расположенные под потолком.

Получается что определение возгорания стандартными способами в этом случае невозможно, а, следовательно, и своевременное тушение пожара невыполнимо. Также перед тушением пожара необходимо будет отключить приточную установку полностью, обесточить все потребители тока и в случае использования систем газового пожаротушения обеспечить герметичность контейнера опустив заслонки. Такой алгоритм работы в контейнерах без АСУ попросту невозможен. Также, в случае срабатывания, использование систем порошкового пожаротушения нанесёт огромный ущерб электронике, и восстановление работоспособности такого объекта затянется на долго.

Рассмотрим другой пример. При некоторых климатических условиях в помещении возникает точка росы. Внутри контейнера даже после небольшого простоя связанного с технологическим отключением или обслуживанием может скапливаться влага, и при перепаде температур она может проявится в виде росы на поверхности плат майнеров. Запуск в такой ситуации грозит повреждением электроники. Система АСУ должна отслеживать условия старта электроники, и не допускать запуска при возникновении критической влажности, чтобы сберечь дорогостоящее оборудование от повреждения.

Более частые ситуации — зависание оборудования. Если это происходит с майнером, работающим на видеокартах, то зависание потребует перезапуска системы. Для решения этой проблемы обычно применяются простые вотчдог таймеры подключаемые одним концом в USB разъём материнской платы, а другим на кнопку Reset. Однако, если произошла поломка кулера видеокарты, то будет необходимо как можно скорее отключить майнер. Если рядом сидит человек и контролирует процесс майнинга — он конечно же сможет сделать это с помощью выключателя блока питания. Но до этого момента видеокарта будет работать в режиме перегрева, что может привести к повреждению процессора. Удаленное же управление электропитанием каждого майнера отсутствует практически во всех предлагаемых на рынке контейнерах. На первый взгляд это не существенно, однако на практике различные проблемы в работе оборудования остаются достаточно частым явлением и требуют немедленного отключения электропитания с целью предотвращения повреждений.

Основы эффективной работы АСУ в майнинге


Для корректной и продолжительной работы объекта требуется тщательное взаимодействие всех систем. Также необходимо установить достаточный набор исполнительных элементов, чтобы АСУ могла полностью управлять объектом. Сложно предугадать все возможные ситуации, как правило они совершенно не очевидные, поэтому иногда кажутся невозможными и фантастическими. Однако статистика ремонта оборудования и пожаров на таких объектах говорит об обратном.

Корректная работа оборудования возможна только при наличии хорошо продуманных циклограмм, запрограммированных в ПЛК. Эти циклограммы должны обеспечить автоматический переход из одного режима в другой. Например, после подачи электропитания было бы логично проверить уровни напряжений электросети, проверить температуру и влажность внутри контейнера и при необходимости включить прогрев воздух тепловыми пушками. А до тех пор, пока все параметры не придут в норму, подавать питание на майнинговое оборудование недопустимо.

Включение майнеров необходимо осуществлять поэтапно, поочередно подавая питание на каждый майнер. Одновременно необходимо обеспечить работу приточной установки в нужном режиме. Дело в том, что зимой температура воздуха порой опускается до –40… –30 °С. Продувать таким холодным воздухом оборудование, которое только начинает майнить, нельзя. Нужно поддерживать баланс между нагревом воздуха майнерами внутри контейнера и притоком холодного воздуха.

Также система АСУ должна взаимодействовать с системой пожаротушения и при необходимости немедленно отключать приточную вентиляцию, снимая питание со всего оборудования и закрывая заслонки.

Для точной работы всех режимов и безошибочных переходов из режима в режим по запросу оператора либо при наступлении определенных показаний от датчиков нужно составлять соответствующую циклограмму. Важно предусмотреть все возможные ситуации, в которых может находиться контейнер с оборудование, и обеспечить правильный переход из одного состояния в другое. Только когда описаны все ситуации, проработана логика работы контейнера и проведены все тесты, можно сказать, что объект будет функционировать надлежащим образом во всех возможных ситуациях и человеческий фактор не окажет влияние на своевременность выполнения действий. Поскольку все системы регулярно обмениваются данными друг с другом, отказ любой из них будет сразу же выявлен. Например, если выйдет из строя двигатель приточной установки, об этом можно будет узнать ещё до того, как в контейнере начнется перегрев оборудования, поскольку АСУ отреагирует автоматически.

Что касается стоимости таких систем АСУ, то их цена сравнительно невысока — по крайней мере, по сравнению со стоимостью всех майнеров и их возможных ремонтов. А при правильном подходе к проектированию АСУ, система управления будет не только реагировать на уже произошедшие события, но и предсказывать возможные поломки оборудования, сопоставляя показания различных датчиков с уже накопленной информацией. Таким образом, значительно снизятся затраты на эксплуатацию техники, а управление таким объектом станет по настоящему удаленным и эффективным.

Комментарии (17)


  1. DGN
    04.09.2018 02:56

    Мне кажется сложность АСУ преувеличивается. Если есть управление поразеточное или хотя бы пополочное, даже в -40 можно стартовать, часть оборудование запуститься и прогреет контейнер. Остальное само собой ребутится и вступает в строй. Приточка естественно не работает пока нет +30 внутри.

    Пожар ИК датчики, если есть +200 то это точно пожар. Рубим все электричество кроме резерва и если не падает температура — выключаем вентиляцию и разряжаем фреоновой баллон. Естественно с блокировкой на тему людей в контейнере, то есть пока он не закрыт на замок снаружи — только пожарная сирена.

    p.s. Расскажите нам про то, как очищается воздух при фрикулинге?


    1. acorn2k
      05.09.2018 13:41

      В нашем решении система АСУ предотвращает пожар, при отклонении хотя бы одного из более 50 параметров работы вычислительного блока из 12 видеокарт, отключает его и уведомляет оператора о произошедшем событии. Скорость реакции менее 1 секунды!

      Система собирает данные о напряжения Vmin, Vmax, Vripple со все блоков питания
      и также сообщает оператору об отклонениях и предстоящих ТО БП.

      Выбор воздушных фильтров для фрикулинга осуществляется исходя из скорости потока и требования к его падению после фильтрации.
      Мы применяем недорогие кассетные фильтра 4 и 5 классов.
      В летний период периодичность замены фильтров раз в месяц, в зимний в два раза реже.


      1. talovd
        05.09.2018 19:43

        Много ли на вашей практике было пожаров на фермах?


        1. acorn2k
          06.09.2018 12:41

          Если вы имеете ввиду пожар такого масштаба, то конечно же нет.
          coinspot.io/technology/mining/v-tailande-sgorela-bitcoin-ferma-stoimostyu-36-mln

          Наша система предотвращает возможные возгорания и при отклонении рабочих параметров в течении 1 секунды обесточивает вычислительный юнит.
          Наиболее частые пожароопасные проблемы, из-за которых АСУ отключала вычислительные юниты — неисправности БП и отказы вентиляторов DELTA (КЗ по питанию)


  1. SlavniyTeo
    04.09.2018 10:59

    Мы разработали программу, но у нас пока не было машин для реальной проверки. Поэтому мы посадили в комнату девушек и снабдили каждую калькулятором Маршана: одна была “умножителем”, другая – “слагателем”. Еще одна возводила в куб: все, что она делала, – возводила в третью степень число на карточке и отправляла ее следующей девушке.

    Так мы прошли по всему циклу, пока не “вылизали” его, не избавились от всех скрытых ошибок. Оказалось, что скорость, с которой мы теперь были в состоянии вычислять, стала чертовски большой – намного больше, чем при другом способе, когда каждый человек все шаги проделывал сам. По этой системе мы получили скорость вычислений, совпадающую с предсказываемой скоростью для машины IBM. Единственная разница состояла в том, что машины IBM не уставали и могли работать в три смены. А вот девушки через некоторое время уставали.

    (с) Ричард Фейнман "Вы конечно шутите, мистер Фейнман!"


    1. acorn2k
      05.09.2018 15:39

      А вот девушки через некоторое время уставали.

      Девушек конечно жалко. :)

      Посмотрите лучше обзорное видео от Соловьёва, уровень конечно не для Хабра, но, в общем и целом, даёт понимание технологии двухфазного иммерсионного охлаждения.
      Снято красиво, при контровом освещении хорошо виден уровень насыщенного пара и фазовый переход из жидкости в пар и обратно. ;)
      youtu.be/EOytjF11rYc


  1. talovd
    04.09.2018 12:30

    АСУ — автоматизированная система управления, а не автоматическая. Оператор-машинист для АСУ все же нужен.
    Что за контроллер, SCADA используется?


    1. Segmentq
      04.09.2018 13:20

      Мне кажется или автор действительно считает, что предполагаемая система автоматизации помещения невероятно крутая штука и рядом не стоит с АСУТП газовых турбин, энергоблоков, конвейеров и т.п.
      Вообще очень похоже на какой-то рекламный проспект.


      1. talovd
        04.09.2018 13:37

        А она пока и не стоит. Масштабы автоматизации разные. Слово АСУшника.


        1. Segmentq
          04.09.2018 14:06

          Но как преподносится! Не нужно слов, коллега! :)


          1. acorn2k
            05.09.2018 11:37

            Друзья, никто не сравнивает АСУ в контейнере и АСУ на МКС. Статья — попытка донести мысль что без оной эффективный майнинг невозможен. ;)


    1. acorn2k
      05.09.2018 15:10

      АСУ — автоматизированная система управления, а не автоматическая.

      Совершенно верно, так и написано.

      Оператор-машинист для АСУ все же нужен.

      Конечно нужен. В нашем решении пульт АРМ реализован на боте для популярного мессенджера.

      Что за контроллер, SCADA используется?

      В системе применён контроллер собственного производства, специально спроектированный под данный объект.


  1. lamer84
    04.09.2018 14:20

    Только когда описаны все ситуации, проработана логика работы контейнера и проведены все тесты, можно сказать, что объект будет функционировать надлежащим образом во всех возможных ситуациях и человеческий фактор не окажет влияние на своевременность выполнения действий.

    В общем-то это справедливо для любого сложного техпроцесса, каждый из которых имеет свои особенности и нюансы (условия запуска, аварии, режимы работы), которые должны учитываться при разработке системы АСУ. Те же котельные, газораспределительные станции и другие сложные объекты имеют свои запуски, блокировки, аварийки и прочее.
    Если уже есть реализации АСУ для майнинга, какие контроллеры используете?


    1. acorn2k
      05.09.2018 15:30

      Данная статья базируется на нашем опыте.
      В АСУ применён контроллер собственного производства.


  1. Vlad5
    04.09.2018 17:05

    Жаль, что позабыли одно уточнение, что деньги — это мера труда. А при майнинге какая полезная работа совершается, кроме перевода энергии в тепло? Растрачиваем нужное на пустое.


    1. SlavniyTeo
      05.09.2018 11:06

      На некорректный вопрос — некорректный ответ. Еще тепленькая статья о пользе майнинга биткойна.


      Если хотите, есть пережеванный вариант


      1. acorn2k
        05.09.2018 12:21

        Это не только майнинг криптовалют, но и огромный вычислительный ресурс.
        В каждом контейнере от 480 до 960 видеокарт для параллельных вычислений.
        Конкретно в данный момент на системе решается задач профессора Чуднова А.М.
        «Циклические разложения множеств, разделяющие орграфы и циклические классы игр с гарантированным выигрышем»
        Вот эта www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=dm&paperid=1388&option_lang=rus

        Обязательно напишем статью о применении GPU кластеров в параллельных вычислениях.

        ps
        Желающие могут попробовать доказать теорему на домашнем компьютере. ;)