Современный бизнес не может обойтись без постоянного притока свежей информации. Но получить информацию недостаточно, ее необходимо обработать и проанализировать. Причем сделать это нужно в максимально короткие сроки. Как и вода, информация не должна застаиваться. Она должна постоянно перетекать от источников на периферию и в локальные дата-центры, а затем в облако и иногда возвращаются обратно.

Источник: https://www.pexels.com/ru-ru/photo/1181316/
Источник: https://www.pexels.com/ru-ru/photo/1181316/

Что изменилось в потоках данных? 

Предприятия регулярно переносят данные между разными пунктами хранения, но их объемы растут намного быстрее емкости сети, и привычный способ перемещения информации по сетевым каналам становится все менее эффективным. На это, в частности, указывает недавно вышедший отчет Mass Data on the Go от компании Seagate.

Для иллюстрации все более колоссальных объемов корпоративных данных там приводится пример активных систем содействия водителю (ADAS). На начальном этапе развития ADAS их возможности ограничивались предотвращения блокировки тормозов и регулировки тягового усилия для противодействия пробуксовке. Уже сейчас эти системы в состоянии самостоятельно парковаться и предотвращать столкновения с использованием радара, но для перехода к полностью автономным автомобиля потребуются многие годы и бесчисленные петабайты данных.

Чем выше уровень автономии, на который нацеливаются проектировщики, тем больше информации им требуется. Для полной автономии может понадобиться до 20 ТБ в час в расчете на автомобиль, используемый для записи данных ИИ. А общий объем набора обучающих данных, полученных от группы таких автомобилей, составит не меньше 20 ПБ в час. Обработка всей этой информации происходит в гипермасштабных дата-центрах, но как перенести в них нужную информацию? На пересылку всего 1,5 ПБ данных, созданных 10–20 исследовательскими автомобилями, по гигабитному соединению корпоративного класса понадобится более 150 суток. За это время информация полностью потеряет свою актуальность и станет практически бесполезной.

Но это лишь один, самый яркий пример проблемы. Помимо него с аналогичными проблемами сталкивается приложения для мультимедиа и развлечений, обработки данных систем видеонаблюдения, здравоохранения и умного производства. Специалисты Cisco считают главной движущей силой нынешнего роста объема данных системы межмашинной связи (M2M), а в IDC прогнозируют резкий рост общемирового объема созданных данных: если в 2020 году он составил 64 ЗБ, то в 2025-м достигнет уже 180 ЗБ. Главным же «виновником» этого, по словам аналитиков, станет интернет вещей, особенно камеры и автоматизированные M2M-взаимодействия с участием цифровых приборов учета потребления коммунальных услуг, систем управления медицинским оборудованием и т.д.

Почему без периферии не обойтись

Десять лет назад перед предприятиями стоял простой выбор – хранить данные в публичном или частном облаке. Но сегодня этот выбор заметно расширился, а для оптимизации доступа к данным, их размещения, распределения и использования, организации все чаще прибегают к мультиоблачной и гибридной моделям. Аналитики IDC Storage Systems & Infrastructure Trends Survey выяснили, что в настоящее время централизованную архитектуру облачного хранилища использует 47% предприятий, но уже через два года их доля упадет до 22%. Напротив, доля гибридной архитектуры хранилища из централизованных и периферийных систем пока не так велико – 25%, однако через те же два года эта цифра вырастет до 47%.

Как видно из отчета IDC, непрерывный рост корпоративных данных приводит к постепенному смещению акцентов в сторону облачного ядра и периферии, и если в 2015 году там хранилось только 30% данных, то в 2020 году их доля увеличилась до 50%, а в 2025-м, согласно прогнозу, достигнет уже 70%.

Ограниченных возможностей сетевых каналов уже недостаточно для оперативного перемещения растущих массивов данных. Но помимо ограничений, связанных с сетевыми характеристиками и задержкой, есть еще несколько барьеров, осложняющих доступ к данным и их перемещение – нехватка волоконно-оптических каналов и совокупная стоимость таких услуг. Причем, как показывают опросы, наибольшее влияние на выбор решения для транспортировки или миграции данных предприятия оказывает именно последний фактор. Ну а выбор в пользу физических средств миграции данных в 78% случаев объясняется недостаточными характеристиками сети для передачи требуемых объемов информации.

Активнее всего данные создаются на периферии, ну а периферийные системы все чаще становятся важнейшим участком маршрута данных и ключевым элементом стратегии в области хранения. Они могут работать на периферии любой сети и, по сути, делятся на три уровня. Микропериферия расположена ближе всего к внешней границе сети и конечным точкам. На этом уровне происходит сбор наибольшего количества данных, а задержка не превышает 5 мс. Устройства сбора данных микропериферии – это обычно внешние накопители, соединенные с периферийными серверами либо по беспроводной связи.

Городская периферия работает уже на уровне города. Время отклика в такой системе заметно выше – 5-10 мс, намного выше и емкость ее хранилищ. Объектом сетевой периферии может быть небольшой центр обработки данных в здании головного офиса компании или какое-то количество стоек в коммерческом центре колокации. Ее близость к источникам данных и большая емкость делают такую систему хорошим выбором для транзакционные СУБД, систем поточной передачи мультимедиа и других приложений. Наконец, третий уровень периферии – макропериферия. Это крупномасштабные объекты со временем отклика 10–20 мс, обслуживающие до десяти арендаторов и расположенные на расстоянии 10–150 км от конечных точек. Как правило, это центры колокации или полноценные дата-центры с резервными магистральными каналами, которые всего на ступень ниже сетевого ядра.

На рост периферии оказывают влияние те же движущие силы, которые отвечают за рост данных. В первую очередь, это развитие технологий искусственного интеллекта, набирающие популярность Интернет вещей и 5G-сети. Кроме того, далеко не последнюю роль в этом играет конвергенция ИТ и операционных технологий в производстве, а необходимость дополнения облачных мощностей периферийными привела к появлению периферийных ЦОДов.

«Центр тяжести» данных теперь меняется

Бурное развитие систем периферийных вычислений приводит к сдвигу в сфере хранения данных, которые все больше распределяются между различными облачными и периферийными ресурсами. Данные в экосистеме «конечная точка – ядро» перемещаются по большему количеству маршрутов, чем раньше, а это значит, что их можно размещать вблизи приложений, чтобы обеспечивать максимальную производительность последних.

По мере накопления данных они приобретают собственную силу притяжения, действующую на приложения, сервисы и новые данные. Причем чем больше объем (или так называемая масса) данных, тем больше сила притяжения. На определенном этапе данные могут достичь критической массы, превратившись в своеобразную «черную дыру», затягивающую в себя приложения, сервисы и данные. Для того чтобы избежать этого, специалисты IDC рекомендуют размещать данные вместе с соответствующими приложениями, независимо от их местонахождения.

Одним из самых эффективных средств преодоления этого гравитационного колодца может стать корпоративный автомобиль или защищенный грузовик специальной службы, перевозящий петабайты данных. Они позволяют выполнять миграцию больших объемов данных гораздо быстрее, чем глобальная сеть. Однако здесь нужно понимать необходимость принятия строгих мер безопасности. Перевозимая информация должна быть зашифрованной на всех этапах транспортировки, а организациям в обязательном порядке необходимо учитывать требования регуляторов и законы о суверенитете данных.

Комментарии (6)


  1. Galperin_Mark
    25.11.2021 19:05

    Видел анонс о планах выпуска 20 Тб накопителя. Просьба сделать update информации, выйдет ли новинка в этом году?


    1. SeagateRussia Автор
      26.11.2021 14:21

      Сейчас мы не можем разглашать такую информацию, однако, возможно, мы скоро порадуем вас новостями.


      1. Galperin_Mark
        26.11.2021 15:32

        Благодарю за ответ. Ждем 20-ку.


  1. OlegZH
    25.11.2021 23:53

    Они позволяют выполнять миграцию больших объемов данных гораздо быстрее, чем глобальная сеть. 

    По сети передавать можно и больше, если делать это постоянно, не дожидаясь запроса пользователя. Традиционный подход заключается в минимизации трафика. Активная сеть — это что-то вроде FREENODE, но на современном технологическом уровне. Заявки нужно организовывать в очереди, и исполнять уже то, что действительно нужно, а не возить туда-сюда петабайты данных.


  1. OlegZH
    25.11.2021 23:59

    Согласно теореме САР, единственная возможность получить эффективную сетевую структуру — это создание единого для всех "облака". В этом случае, миграция данных нужна только для простого администрирования данных с целью оптимизации выполнения запросов пользователей. Это означает, что у каждой организации должен быть свой сайт — узел, к которому семантически привязываются все операции с участием данной организации. То есть, Сеть оказывается эдакой всемирной Википедией.


  1. OlegZH
    26.11.2021 00:00

    Знать бы, ещё, ради чего хранить и обрабатывать.