От стабильности IT-инфраструктуры зависит бесперебойная работа всего бизнеса. Однако с ростом масштабов инфраструктуры обеспечивать её эффективность и отказоустойчивость становится всё сложнее.
В таких условиях компаниям приходится делать выбор между облачной гибкостью и контролем над собственным ЦОДом, а также решать, насколько доверять автоматизации рутинных процессов.
Octopus от ГК «Юзтех» и Хабр провели опрос среди читателей и выяснили, какие подходы преобладают в российском IT-сообществе. Всего опрос прошли 447 респондентов, более ста из них ответили на все вопросы.
Итоги оказались неожиданными: компании переходят на ЦОД и, несмотря на масштабы инфраструктур, многие процессы до сих пор ведутся вручную. Давайте разберёмся, что происходит на рынке и какие выводы можно сделать.
Насколько большая инфраструктура?
Изначально наш опрос был нацелен на бизнес с 30 и более узлами в инфраструктуре. Но в итоге большинство респондентов оказались сотрудниками достаточно крупных компаний.
У 42,5% участников опроса развитая инфраструктура, в которой развёрнуто более 100 узлов. 18,8% опрошенных отметили, что их инфраструктура поменьше — в диапазоне от 30 до 100 узлов. 29,7% — компании с менее чем 30 хостами.

Облака или собственный ЦОД — что выбирают чаще?
По количеству голосов безоговорочно победили Центры обработки данных (ЦОД) — 61,3% опрошенных. 26,7% ответили, что их компания использует облачные сервисы. 6,9% отметили, что только задумываются об аренде облака, но пока не сделали этого.
Основные причины, по которым респонденты выбирают для работы ЦОД, — безопасность, выгодная цена и санкционные ограничения.
Например, регуляторы обязывают многие компании, особенно из финансового и нефтяного секторов, использовать собственный ЦОД. Часто бизнес беспокоится за сохранность своих данных и считает, что провайдеры не обеспечивают должный уровень защиты.
Ещё не всем нужна возможность быстро добавлять ресурсы. То есть когда инфраструктура заказчика достаточно статична и не требует частой закупки новых вычислительных мощностей, цена аренды облака, как правило, оказывается выше.
Отдельно стоит выделить хостинговые компании и самих облачных провайдеров. Они ожидаемо пользуются собственными облаками, а не арендуют чужие.
Таким образом, можно отметить обратный тренд по сравнению с 2010-ми годами, когда бизнес массово переходил на модные облака.

Что насчёт контроля и управления ресурсами?
На вопрос о наличии гипервизоров или платформ виртуализации ответили 59,4% из всех опрошенных. Здесь не было вариантов ответа, можно было просто назвать инструменты, которыми пользуется компания. Самые популярные — Proxmox, VMware и Hyper-V.
Используют ли автоматизацию для ЦОД?
Большинство респондентов — 53,4% — ответили, что справляются без подобных инструментов. 31,6% используют решения для автоматизации, например DRS, Kubernetes или собственную разработку.

Какие проблемы отслеживают чаще всего?
Более половины респондентов — 57,4% — считают, что важнее всего мониторить статус и загрузку процессора, жёсткого диска, оперативной памяти и сети. 14,9% проголосовали за балансировку вычислительных ресурсов.
Это особенно важно в периоды высокой нагрузки. Например, когда на маркетплейсах начинаются сезонные распродажи, количество пользователей на серверах кратно возрастает. С инструментами автоматизации можно своевременно обнаруживать узкие места и перераспределять виртуальные машины. В результате снижается нагрузка, а системы можно разгрузить и направить на другие задачи.
Еще 11,9% респондентов посчитали важным автоматизированное планирование изменений в ЦОДе. Такие инструменты позволяют провести эмуляцию распределения ресурсов на хостах в режиме «А что будет, если...». Тогда вы будете понимать, к какой загрузке нод кластера приведёт тот или иной вариант размещения виртуальных машин.

Решают ли компании эти проблемы с помощью автоматизации?
68,3% опрошенных отметили, что у них уже автоматизировано отслеживание статуса загрузки процессора, жёсткого диска, оперативной памяти и локальной сети. 21,7% пока мониторят работу системы вручную.
Такие результаты опроса вполне закономерны — большинство наших респондентов из компаний с большой инфраструктурой, где без автоматизации никуда.
Когда у нас имеется пара десятков узлов, осуществлять мониторинг и управлять ими можно вручную. Но что делать, если количество узлов исчисляется сотнями и тысячами?
Тогда, например, в случае потери узла в кластере нужно перераспределить виртуалки по другим хостам. Иначе снизится отказоустойчивость, а некоторые службы могут завершить работу в аварийном режиме.

А каким показателям компании не придают значения?
64,4% опрошенных не анализируют исторические данные о потреблении вычислительных ресурсов. Соответственно, не могут при необходимости построить прогноз по загрузке компонентов инфраструктуры. А вот 29,7% респондентов уделяют историческим данным внимание и считают это важным.
Для быстрорастущих компаний предсказывать, когда кластер исчерпает свои ресурсы, очень важно. Используя данные за последние несколько месяцев или лет, можно строить индивидуальные модели потребления для вычислительных машин или заранее планировать и закупать новые ресурсы.
Отслеживание неиспользуемых мощностей тоже оказалось не слишком популярным. 51,4% не собирают такие данные, а 37,6% говорят, что от них ничего не скроется.
Стоит отметить, что мониторинг «зомби-ВМ» и «потерянных» storages помогает находить неисправное или устаревшее оборудование и вовремя его менять, лучше планировать нагрузку и перераспределять её при необходимости.


Теперь о главном: чего компаниям не хватает в работе с ЦОД?
Мы спросили у респондентов, жалуются ли они на недостаток мощностей, внезапные пиковые нагрузки или недостаточный функционал балансировки и распределения ресурсов. Это важная информация, поскольку в высококонкурентной среде не принято делиться такими данными. Чаще всего компании предпочитают не говорить о подобных проблемах открыто.
Большинство респондентов ответили, что в целом у них всё хорошо. 70,3% считают, что с функционалом все отлично, 60,4% говорят, что текущих мощностей вполне хватает для эффективной работы.
37,6% респондентов сталкиваются с пиковыми нагрузками, но это скорее единичные случаи. Но при этом для компании сбои в работе недопустимы, поэтому проблемы приходится устранять как можно быстрее.
32,6% тоже сталкиваются с проблемой чрезмерной нагрузки редко, но значения для бизнеса это не имеет. 15,8% регулярно испытывают нагрузки, но в их отрасли это нормальная ситуация, поэтому работа продолжается в штатном режиме.


Имеет ли значение отрасль, в которой работает компания?
В нашем опросе участвовали представители разных сфер. В тройке лидеров, конечно, IT-компании — 27,7%, промышленность — 19,8% и финансы — 12,8%. Остальные участники опроса работают в телекоммуникациях, ритейле и госкорпорациях.
Мы сделали вывод, что независимо от отрасли компании могут сталкиваться со схожими проблемами и использовать для их решения одни и те же сервисы.
Например, и в промышленности, и в телекоммуникациях часто используется ручная балансировка нагрузки при обеспечении высокой доступности и отказоустойчивости в работе компонентов ЦОДа.
Наша система Octopus как раз создана для решения таких задач. Она автоматизирует рутинные операции, например балансировку нагрузки, и за счёт предиктивной аналитики помогает оптимально распределять мощности. Это позволяет нашим клиентам повышать стабильность инфраструктуры и эффективнее распределять бюджеты. Приведём несколько примеров из нашей практики.
У нас был подобный кейс с компанией из нефтегазовой отрасли. В её инфраструктуре было более 5500 виртуальных машин с гипервизорами VMware. После внедрения Octopus было выполнено перераспределение нагрузки в реальном времени с использованием прогнозирования пиков потребления.
Это позволило освободить ресурсы без ущерба для производительности инфраструктуры и обеспечить её стабильность. В результате заказчик получил чистую экономию более 2,6 млн рублей.
Государственные организации часто испытывают трудности с нехваткой вычислительных мощностей, при том что они часто выполняют не менее ресурсоемкие задачи, чем коммерческие организации.
Но из-за санкций госкомпании не всегда могут просто закупить новое оборудование, даже при наличии бюджета. Как результат — высокие риски при реализации проектов и дополнительная нагрузка на инфраструктуру.
Мы решили подобную проблему у компании с инфраструктурой из 4000 виртуальных машин с гипервизором VMware. Это позволило спрогнозировать снижение затрат на 28% на приобретение и сопровождение вычислительного необходимого вычислительного оборудования. Ещё было уменьшено время простоя оборудования путём сокращения количества инцидентов на 19%.

Какие можно сделать выводы
1. Возврат к «железным» корням. Бизнес, особенно крупный и в работающий регулируемых отраслях, делает осознанный выбор в пользу более контролируемых и надёжных ЦОДов. Эпоха переходов в облако сменилась более взвешенным подходом, где на первый план выходят конкретные задачи, требования регуляторов и итоговая стоимость владения.
2. Автоматизация — принцип работы в первую очередь крупных инфраструктур. Данные показывают, что пока в инфраструктуре менее 30 узлов, компании предпочитают управлять ею вручную.
Однако при переходе за сотню серверов автоматизация становится не роскошью, а необходимостью для поддержания отказоустойчивости и эффективности. При этом такие мощные инструменты, как прогнозное планирование и анализ исторических данных, пока используются меньшинством, что указывает на большой потенциал для роста оптимизации даже в продвинутых компаниях.
3. Мониторинг есть у всех, но его глубина — ключевое отличие. Практически все компании следят за базовыми метриками, но часто делают это вручную или с помощью стандартных гипервизоров, что даёт лишь общую картину.
Система Octopus обеспечивает мониторинг на принципиально другом уровне: мы собираем и анализируем более 50 метрик с каждой виртуальной машины. Это позволяет с высокой точностью видеть реальное потребление ресурсов, находить «зомби-ВМ» и точно прогнозировать поведение инфраструктуры.
4. Проблемы и их решения универсальны. Независимо от отрасли, ключевые боли остаются общими: пиковые нагрузки, необходимость балансировки ресурсов и мониторинг базовых метрик.
Здесь на помощь приходят ключевые функции Octopus: интеллектуальная балансировка нагрузки не по усредненным, а по реальным метрикам. А ещё предиктивная аналитика, которая не просто отслеживает, а предсказывает пики потребления, позволяя перераспределить ресурсы заранее.
5. Многие всё ещё работают в режиме реагирования, а не предвосхищения. Такой вывод можно сделать, потому что большинство компаний не анализирует исторические данные для прогнозирования и не отслеживает неиспользуемые мощности.
Следующий шаг в эволюции IT-инфраструктур — переход от простого мониторинга текущего состояния к интеллектуальному анализу, который позволяет предотвращать проблемы и более рационально использовать дорогостоящие ресурсы. Octopus обеспечивает этот переход, превращая данные из архива в инструмент для принятия управленческих решений.
От стабильности IT-инфраструктуры зависит бесперебойная работа всего бизнеса. Однако с ростом масштабов инфраструктуры обеспечивать её эффективность и отказоустойчивость становится всё сложнее.
В таких условиях компаниям приходится делать выбор между облачной гибкостью и контролем над собственным ЦОДом, а также решать, насколько доверять автоматизации рутинных процессов.
Octopus от ГК «Юзтех» и Хабр провели опрос среди читателей и выяснили, какие подходы преобладают в российском IT-сообществе. Всего опрос прошли 447 респондентов, более ста из них ответили на все вопросы.
Итоги оказались неожиданными: компании переходят на ЦОД и, несмотря на масштабы инфраструктур, многие процессы до сих пор ведутся вручную. Давайте разберёмся, что происходит на рынке и какие выводы можно сделать.
Насколько большая инфраструктура?
Изначально наш опрос был нацелен на бизнес с 30 и более узлами в инфраструктуре. Но в итоге большинство респондентов оказались сотрудниками достаточно крупных компаний.
У 42,5% участников опроса развитая инфраструктура, в которой развёрнуто более 100 узлов. 18,8% опрошенных отметили, что их инфраструктура поменьше — в диапазоне от 30 до 100 узлов. 29,7% — компании с менее чем 30 хостами.

Облака или собственный ЦОД — что выбирают чаще?
По количеству голосов безоговорочно победили Центры обработки данных (ЦОД) — 61,3% опрошенных. 26,7% ответили, что их компания использует облачные сервисы. 6,9% отметили, что только задумываются об аренде облака, но пока не сделали этого.
Основные причины, по которым респонденты выбирают для работы ЦОД, — безопасность, выгодная цена и санкционные ограничения.
Например, регуляторы обязывают многие компании, особенно из финансового и нефтяного секторов, использовать собственный ЦОД. Часто бизнес беспокоится за сохранность своих данных и считает, что провайдеры не обеспечивают должный уровень защиты.
Ещё не всем нужна возможность быстро добавлять ресурсы. То есть когда инфраструктура заказчика достаточно статична и не требует частой закупки новых вычислительных мощностей, цена аренды облака, как правило, оказывается выше.
Отдельно стоит выделить хостинговые компании и самих облачных провайдеров. Они ожидаемо пользуются собственными облаками, а не арендуют чужие.
Таким образом, можно отметить обратный тренд по сравнению с 2010-ми годами, когда бизнес массово переходил на модные облака.

Что насчёт контроля и управления ресурсами?
На вопрос о наличии гипервизоров или платформ виртуализации ответили 59,4% из всех опрошенных. Здесь не было вариантов ответа, можно было просто назвать инструменты, которыми пользуется компания. Самые популярные — Proxmox, VMware и Hyper-V.
Используют ли автоматизацию для ЦОД?
Большинство респондентов — 53,4% — ответили, что справляются без подобных инструментов. 31,6% используют решения для автоматизации, например DRS, Kubernetes или собственную разработку.

Какие проблемы отслеживают чаще всего?
Более половины респондентов — 57,4% — считают, что важнее всего мониторить статус и загрузку процессора, жёсткого диска, оперативной памяти и сети. 14,9% проголосовали за балансировку вычислительных ресурсов.
Это особенно важно в периоды высокой нагрузки. Например, когда на маркетплейсах начинаются сезонные распродажи, количество пользователей на серверах кратно возрастает. С инструментами автоматизации можно своевременно обнаруживать узкие места и перераспределять виртуальные машины. В результате снижается нагрузка, а системы можно разгрузить и направить на другие задачи.
Еще 11,9% респондентов посчитали важным автоматизированное планирование изменений в ЦОДе. Такие инструменты позволяют провести эмуляцию распределения ресурсов на хостах в режиме «А что будет, если...». Тогда вы будете понимать, к какой загрузке нод кластера приведёт тот или иной вариант размещения виртуальных машин.

Решают ли компании эти проблемы с помощью автоматизации?
68,3% опрошенных отметили, что у них уже автоматизировано отслеживание статуса загрузки процессора, жёсткого диска, оперативной памяти и локальной сети. 21,7% пока мониторят работу системы вручную.
Такие результаты опроса вполне закономерны — большинство наших респондентов из компаний с большой инфраструктурой, где без автоматизации никуда.
Когда у нас имеется пара десятков узлов, осуществлять мониторинг и управлять ими можно вручную. Но что делать, если количество узлов исчисляется сотнями и тысячами?
Тогда, например, в случае потери узла в кластере нужно перераспределить виртуалки по другим хостам. Иначе снизится отказоустойчивость, а некоторые службы могут завершить работу в аварийном режиме.

А каким показателям компании не придают значения?
64,4% опрошенных не анализируют исторические данные о потреблении вычислительных ресурсов. Соответственно, не могут при необходимости построить прогноз по загрузке компонентов инфраструктуры. А вот 29,7% респондентов уделяют историческим данным внимание и считают это важным.
Для быстрорастущих компаний предсказывать, когда кластер исчерпает свои ресурсы, очень важно. Используя данные за последние несколько месяцев или лет, можно строить индивидуальные модели потребления для вычислительных машин или заранее планировать и закупать новые ресурсы.
Отслеживание неиспользуемых мощностей тоже оказалось не слишком популярным. 51,4% не собирают такие данные, а 37,6% говорят, что от них ничего не скроется.
Стоит отметить, что мониторинг «зомби-ВМ» и «потерянных» storages помогает находить неисправное или устаревшее оборудование и вовремя его менять, лучше планировать нагрузку и перераспределять её при необходимости.


Теперь о главном: чего компаниям не хватает в работе с ЦОД?
Мы спросили у респондентов, жалуются ли они на недостаток мощностей, внезапные пиковые нагрузки или недостаточный функционал балансировки и распределения ресурсов. Это важная информация, поскольку в высококонкурентной среде не принято делиться такими данными. Чаще всего компании предпочитают не говорить о подобных проблемах открыто.
Большинство респондентов ответили, что в целом у них всё хорошо. 70,3% считают, что с функционалом все отлично, 60,4% говорят, что текущих мощностей вполне хватает для эффективной работы.
37,6% респондентов сталкиваются с пиковыми нагрузками, но это скорее единичные случаи. Но при этом для компании сбои в работе недопустимы, поэтому проблемы приходится устранять как можно быстрее.
32,6% тоже сталкиваются с проблемой чрезмерной нагрузки редко, но значения для бизнеса это не имеет. 15,8% регулярно испытывают нагрузки, но в их отрасли это нормальная ситуация, поэтому работа продолжается в штатном режиме.


Имеет ли значение отрасль, в которой работает компания?
В нашем опросе участвовали представители разных сфер. В тройке лидеров, конечно, IT-компании — 27,7%, промышленность — 19,8% и финансы — 12,8%. Остальные участники опроса работают в телекоммуникациях, ритейле и госкорпорациях.
Мы сделали вывод, что независимо от отрасли компании могут сталкиваться со схожими проблемами и использовать для их решения одни и те же сервисы.
Например, и в промышленности, и в телекоммуникациях часто используется ручная балансировка нагрузки при обеспечении высокой доступности и отказоустойчивости в работе компонентов ЦОДа.
Наша система Octopus как раз создана для решения таких задач. Она автоматизирует рутинные операции, например балансировку нагрузки, и за счёт предиктивной аналитики помогает оптимально распределять мощности. Это позволяет нашим клиентам повышать стабильность инфраструктуры и эффективнее распределять бюджеты. Приведём несколько примеров из нашей практики.
У нас был подобный кейс с компанией из нефтегазовой отрасли. В её инфраструктуре было более 5500 виртуальных машин с гипервизорами VMware. После внедрения Octopus было выполнено перераспределение нагрузки в реальном времени с использованием прогнозирования пиков потребления.
Это позволило освободить ресурсы без ущерба для производительности инфраструктуры и обеспечить её стабильность. В результате заказчик получил чистую экономию более 2,6 млн рублей.
Государственные организации часто испытывают трудности с нехваткой вычислительных мощностей, при том что они часто выполняют не менее ресурсоемкие задачи, чем коммерческие организации.
Но из-за санкций госкомпании не всегда могут просто закупить новое оборудование, даже при наличии бюджета. Как результат — высокие риски при реализации проектов и дополнительная нагрузка на инфраструктуру.
Мы решили подобную проблему у компании с инфраструктурой из 4000 виртуальных машин с гипервизором VMware. Это позволило спрогнозировать снижение затрат на 28% на приобретение и сопровождение вычислительного необходимого вычислительного оборудования. Ещё было уменьшено время простоя оборудования путём сокращения количества инцидентов на 19%.

Какие можно сделать выводы
1. Возврат к «железным» корням. Бизнес, особенно крупный и в работающий регулируемых отраслях, делает осознанный выбор в пользу более контролируемых и надёжных ЦОДов. Эпоха переходов в облако сменилась более взвешенным подходом, где на первый план выходят конкретные задачи, требования регуляторов и итоговая стоимость владения.
2. Автоматизация — принцип работы в первую очередь крупных инфраструктур. Данные показывают, что пока в инфраструктуре менее 30 узлов, компании предпочитают управлять ею вручную.
Однако при переходе за сотню серверов автоматизация становится не роскошью, а необходимостью для поддержания отказоустойчивости и эффективности. При этом такие мощные инструменты, как прогнозное планирование и анализ исторических данных, пока используются меньшинством, что указывает на большой потенциал для роста оптимизации даже в продвинутых компаниях.
3. Мониторинг есть у всех, но его глубина — ключевое отличие. Практически все компании следят за базовыми метриками, но часто делают это вручную или с помощью стандартных гипервизоров, что даёт лишь общую картину.
Система Octopus обеспечивает мониторинг на принципиально другом уровне: мы собираем и анализируем более 50 метрик с каждой виртуальной машины. Это позволяет с высокой точностью видеть реальное потребление ресурсов, находить «зомби-ВМ» и точно прогнозировать поведение инфраструктуры.
4. Проблемы и их решения универсальны. Независимо от отрасли, ключевые боли остаются общими: пиковые нагрузки, необходимость балансировки ресурсов и мониторинг базовых метрик.
Здесь на помощь приходят ключевые функции Octopus: интеллектуальная балансировка нагрузки не по усредненным, а по реальным метрикам. А ещё предиктивная аналитика, которая не просто отслеживает, а предсказывает пики потребления, позволяя перераспределить ресурсы заранее.
5. Многие всё ещё работают в режиме реагирования, а не предвосхищения. Такой вывод можно сделать, потому что большинство компаний не анализирует исторические данные для прогнозирования и не отслеживает неиспользуемые мощности.
Следующий шаг в эволюции IT-инфраструктур — переход от простого мониторинга текущего состояния к интеллектуальному анализу, который позволяет предотвращать проблемы и более рационально использовать дорогостоящие ресурсы. Octopus обеспечивает этот переход, превращая данные из архива в инструмент для принятия управленческих решений.