Привет, Хабр! На связи Hoff Tech с новой историей из жизни центрального склада Hoff в Домодедове. В прошлый раз мы рассказывали, как «переносили» складской комплекс из 2000-х в современность: обновляли инфраструктуру, распутывали кабели, боролись с подпольной биржей труда.

Но и после запуска обновлённый склад не сразу заработал на все 100500%: сотрудникам нужно было время, чтобы привыкнуть к работе по-новому, притереться к обновлённым информационным процессам. В отличие от маркетологов вендорных решений, которые продали и забыли, а потом «пишите письма мелким почерком», мы 24/7 находимся в работе с инфраструктурой и пользователями. Это тоже сыграло свою роль — самые захватывающие кулстори часто связаны не с железом и программным обеспечением, а с людьми. Под катом — детали запутанной истории, разгадку которой мы отыскали совсем недавно. 

Аномальная зона детектед 

Эта история началась с беспрерывного потока обращений от сотрудников склада:

И даже так:

 

Сотрудники склада постоянно жаловались, что у них не работает Wi-Fi. Когда они переходили из блока в блок или находились в каких-то конкретных местах на складе, связь терялась. 

Для справки: центральный склад Hoff (вид сверху)
Для справки: центральный склад Hoff (вид сверху)

На первый взгляд, этой в проблеме нет ничего необычного — наверное, на земле не существует места, в котором никогда не было неполадок со связью. Наши техники полезли в систему мониторинга и… никаких проблем не обнаружили — по метрикам Wi-Fi работал идеально. 

Тогда, чтобы разобраться на месте, а не у мониторов, админы отправились на склад. Сотрудники склада показали места, где, по их словам, постоянно терялся сигнал. Вот только там всё работало прекрасно — в присутствии технически подкованных специалистов «аномальная зона» себя не проявляла. Но стоило техникам приземлиться на рабочее место, складские снова стали засыпать заявками: «нет Wi-Fi», «терминалы не работают», «работать невозможно».

Продвигаясь по разным уровням бюрократической иерархии, эти жалобы множились и обрастали ужасными подробностями. В какой-то момент мы решили подсчитать примерное время простоев по всем жалобам из-за потери сигнала. Получалось, что склад терял деньги даже не купюрами, а пачками и упаковками, но при этом отгрузки не останавливались! 

Спросите откуда пачки? А всё просто — каждый день у сотрудника ПРТ такие сложности с WI-FI возникают каждые 20 минут, то есть 3 раза в час, или 24 раза за 8 часов.

Это отнимает у него 5 минут из этих 20 (по экспертной оценке сотрудников склада). 120 минут в день умножаем на 50 сотрудников склада на погрузчиках и умножаем на месяц. Итого: 180 000 минут в месяц сотрудники теряли из-за плохого интернета. А дальше, зная зарплату сотрудника, легко переводим это время в потерянные деньги.

Эти таинственные явления мы активно обсуждали и общими усилиями решили: 

  • найти конкретные места, где что-то происходит (а точнее, не происходит);

  • зафиксировать наличие сигнала или его отсутствие; 

  • отловить типовые ошибки, которых нет в логах программ, и точно определить места, где возникают сбои.

Наш технический отдел мониторит проблему (шутка). Все экстрасенсы в отпуске

Поиск проблемы: всё чудесатее и чудесатее

Причины проблем со связью на складах можно свести к трём категориям: 

  1. Сигнал недостаточной мощности в зоне покрытия. 

  2. Разнообразные программные сбои.

  3. Проблемы с коммутационным оборудованием, когда, например, локальная сеть перегружена.

Иногда эти три момента накладываются друг на друга. Но все они приводят к тому, что у складских сотрудников не работает много чего, в том числе и терминалы.

Чтобы обнаружить эти проблемы сперва мы обратились к статистике. Мы использовали дашборды, с помощью которых можно посмотреть на текущую ситуацию и исторические данные по операциям.

Мы собрали все эти данные и сравнили с данными за другие дни. И вновь выяснили, что на складе не было никаких глобальных проблем ни в локальной сети, ни в подборах

Подбор товара — это одна из самых частых и трудоёмких операций на складе. Зная среднюю скорость подбора и количество подборов в заказе, можно понять, есть ли на складе проблемы.

Итак, судя по статистике, глобальной остановки склада — нашего самого страшного сна —  можно не бояться. Но какие-то неполадки всё-таки были — и это не галлюцинации выдумки сотрудников. 

Опираясь на карты, составленные по обращениям, мы отправились исследовать аномальные зон, где были замечены перебои со связью. 

Терминалы сбора данных (ТСД) в этих местах работали хорошо: была и видеосвязь, и пинг, и сетевая связанность. Тогда мы обратились напрямую к сотрудникам, которые больше всех перемещаются по складу, — к операторам складской погрузочно-разгрузочной техники (ПРТ) — и попросили их объяснить, в чём проблема.

Их ответ застал нас врасплох звучал загадочно — оказывается, раньше в этой конкретной зоне ничего не работало, а сейчас всё отлично. Мы на всякий случай проверили ещё один терминал — он тоже работал.

Ну хорошо, всё везде работает, но почему поток жалоб никак не иссякает? 

Истина где-то рядом

И где-то в этот момент отчаяния и тоски к нам пришло озарение:

  1. Склад — живой организм, и наполнение ячеек в нём регулярно меняется. Сегодня в этой зоне — мебель и стройматериалы, а завтра — посуда и предметы декора. 

  2. Если заполнить ячейки металлической посудой в зоне, где Wi-Fi средний или чуть ниже, металл экранирует сигнал и влияет на приём. 

  3. Когда поддон с кастрюлями и чайниками уезжает на другой склад или в магазин, сигнал восстанавливается — до следующего раза. 

Эта гениальная в своей простоте идея пришла к нам во время осмотра ячеек. На складе не меняется ни количество людей, ни количество терминалов, ни Wi-Fi. Единственная значимая переменная — сам товар, который регулярно перемещают туда-сюда. Логично предположить, что как раз с ним и связаны аномалии. 

По-хорошему нашу «теорию кастрюль» надо бы проверять вручную — наполнить ячейки металлическими товарами и посмотреть, что будет с сигналом. Но нам хватило натурного эксперимента с разными терминалами: мы сравнили, как они работают одновременно в одних и тех же зонах. Этот эксперимент помог нам понять кое-что важное: на складе мы использовали две модели ТСД от Honeywell, и на одном из них был чип, который не очень стабильно работает в сети 5 ГГц. Как мы потом узнали, с этим сталкивались и другие компании: у них были похожие проблемы с отсутствием сигнала. Со второй моделью таких проблем не возникало.

Схватка с «зоной кастрюль»: ищем решения 

Самый очевидный вариант — рубануть с плеча: добавить Wi-Fi-оборудование и усилить сигнал, поднять его уровень выше среднего по всему складу. Минус такого подхода — стоимость: выйдет в несколько миллионов рублей на каждый блок. Пожалуй, слишком высокая цена за избавление от «аномальных зон».

Решение заменить Wi-Fi на сотовую связь нам тоже не подошло бы.

  • Складской комплекс Hoff находится за городом, где не все сотовые операторы качественно ловят.

  • Любой склад — это большая коробка, в которой никто не отменял явление интерференции и проникания сигнала. С сотовой связью будут те же проблемы, а её стоимость выше: терминалы с сим-картами стоят дороже, чем с Wi-Fi. Плюс тарифы от оператора и прочие сложности.

  • Терминалы с сотовой связью — это и вопрос безопасности соединения. Нужно будет или выбрать одного оператора, привязываясь к его базовым станциям, или состыковаться с каждым оператором, что накладывает ещё больше ограничений. 

Распределить все кастрюли по складу равномерно — тоже так себе выход. Во-первых, складу придётся подстраиваться под особенности ИТ-системы. Во-вторых, никто не сможет предоставить на 100% рабочую схему размещения товаров, чтобы они были максимально радиопрозрачными.

Единственным стопроцентно верным местом может быть стена блока, но таких стеллажей всего два ряда в каждом блоке.

Далее мы пошли по пути наименьшего сопротивления: решили поставить дополнительные узконаправленные точки в проблемные ряды, а ещё лучше — развернуть наши обычные и повесить их напротив ряда. Вооружившись бухтой кабеля, инженеры пошли делать прототип нового решения. Сделали замеры и ничего. НОЛЬ. Изменения не дают никакого эффекта. Слишком далеко и глубоко.

Ну и тогда у нас остался последний шанс — заменить проблемные ТСД. Всё же это более реалистично, чем доустановка точек доступа или тем более их полная замена. Да и цена вопроса все же ниже. Благо, выбрать ТСД есть из чего — на рынке довольно много брендов. Выбранные ТСД мы отдавали сотрудникам, которые могли дать объективную обратную связь. В итоге остановились на M3 US20.

Наш технический отдел после победы над «зоной кастрюль». Ну почти
Наш технический отдел после победы над «зоной кастрюль». Ну почти

Вывод номер раз: коммуникация — наше всё 

Из этой истории с аномальной зоной мы сделали несколько выводов.

Наблюдение первое: разворачивая Wi-Fi-сеть, стоит сразу максимально обвешивать процессы мониторингами, но на них нельзя слепо полагаться, особенно первое время. Мнение сотрудников не менее важно, и не стоит отмахиваться от жалоб, потому что «по мониторингу всё зелёненькое».

Вывод номер два: дороже не значит лучше

Узнав о проблемах, мы могли бы, не разбираясь, перейти на более дорогое оборудование с избыточной мощностью, но решили вникнуть в проблему и не прогадали. 

Наблюдение второе: выбирая между «потратить в 10 раз больше» и «сэкономить», мы остановились на экономии, прошли этот путь, получили бесценный опыт и факапы, о которых можно рассказать на «Хабре», и на других складах будем действовать быстрее, проще и эффективнее.Так в перспективе мы сохраним ещё больше денег.

Вывод номер три: помни о субъективности

Наблюдение третье: зачастую люди субъективно оценивают ситуацию, нельзя полагаться только на их мнение.

Типичный пример из складской жизни: рядовой сотрудник сообщает, что его терминал перезагружается «целых» 30 секунд. Информация доходит до руководителя в слегка преувеличенном виде: терминал не работал от 5 минут до получаса. Если такими сообщениями руководителя бомбардировать регулярно, у него создастся впечатление, что у какого-то сотрудника терминал вырубается на длительное время по 20 раз на дню. В тикетах получается, что 100 минут из 8-часового рабочего дня человек ничего не делает из-за глючной техники.

Такая субъективная математика формирует искажённое понимание, что на складе всё плохо и, кажется, действительно проще залить всё деньгами и поставить дорогущее сетевое оборудование. Но это не соответствует реальности и, самое главное, не решит проблему. 

Самый объективный источник информации — видео- и фотофиксация всего, что перезагружается, простаивает, ломается. Ещё вариант — использование систем автономности, когда, например, логирует сам терминал: делает скриншот, записывает в системе. Совсем мечта — это система LBS, которая позволяет отслеживать местонахождение терминала или триангуляцию на Wi-Fi, а ещё умеет фиксировать картинку и сетевое состояние в момент времени. В критической ситуации система делает скриншот и отправляет crash-репорт в папку с такими данными. 

Дашборды тоже уменьшают искажение информации, помогают увидеть нестыковки и разобраться, что действительно происходит. Но все эти методы несовершенны, так что не ленитесь и выходите «в поля» к сотрудникам, даже если на вашем мониторе всё выглядит идеально. Именно коммуникация и замеры на месте помогают найти проблемы и избежать недопонимания между отделами, рядовыми сотрудниками и руководством.

Комментарии (6)


  1. VladimirFarshatov
    27.10.2023 09:21
    +1

    Спасибо за статью. Работа в полях часто помогает точнее интерпретировать сказки сотрудников. Они часто не врут, наоборот стараются помочь, но вот их восприятие часто играет "злую шутку" и терминал перезагружается аж целых 30секунд .. да, зачетно и часто.. Походы в поля, мне в свое время, помогли выловить баг гонки процессов .. никак не связанных промеж себя, что и было причиной его долгого поиска. На самом деле, связь обнаружилась, но .. настолько опосредованная (через Астериск, софтфон и пр. беду) что искать по логам можно было бы до макаркиного заговения.

    Но .. с другой стороны, также однажды получил "нагоняй от начальства" за .. попытку найти причину проблемы, вместо того, чтобы применить костыльное решение. Но, с другой стороны это тоже штатно, ибо "веб-студия" .. закрыть костылем найденную дыру можно быстро. А когда всплывет снова - можно снова закрыть и взять деньги с Заказчика.. кмк, такое себе, поэтому расстались по взаимному согласию.. ;)


    1. bums Автор
      27.10.2023 09:21
      +2

      Тут главное найти баланс. Если красивое решение дорого/долго, то может быстро/некачественно тоже подойдет.

      Но экономить на инфраструктуре опасно, проблемы в самом начале пути байтов может давать незабываемы эффекты ;)


  1. alexuz84
    27.10.2023 09:21
    +1

    А разве на ТСД нет возможности использовать 2.4ГГц диапазон? Да и вообще, зачем вы использовали 5ГГц, у которого и дальность и проникаемость сильно меньше? От ТСД же идет мизерный трафик.


    1. bums Автор
      27.10.2023 09:21
      +2

      Можно и 2,4 и мы даже пробовали это делать. Но при такой плотности точек не возможно развести нормально каналы в 2,4 диапазоне.

      Во вторых сигнал на 2,4 летит дальше, но хуже при припятствиях.

      И самое главное от одного тсд трафик не большой, а когда их сотни трафик приличный.


  1. frostmx
    27.10.2023 09:21

    Привет! На Ekahau так и не решились?


    1. bums Автор
      27.10.2023 09:21

      Нет. Мы делали с ним первоначальный замер и поиск точек доступа.

      А весь тюнинг проводим в TamoGraph. Настроили там модели, подобрали параметры и в целом работает хорошо