29 октября 2025 года в 16:00 UTC в платформе Microsoft Azure произошел глобальный сбой, который повлек за собой недоступность сервиса в течение 3-4 часов. Инцидент повлиял на Azure Portal, Microsoft 365, Xbox Live и многие другие приложения. Это второй крупный сбой Azure Front Door в октябре 2025 года.
Что такое Azure Front Door?
Azure Front Door (AFD) - это глобальная сеть уровня Layer-7, обеспечивающая критически важные функции для всей экосистемы Microsoft Cloud: TLS-терминацию для защищенных соединений, глобальную балансировку нагрузки между регионами, интеграцию Web Application Firewall для защиты от атак, маршрутизацию запросов для миллионов клиентских приложений, функциональность CDN для оптимизации доставки контента. AFD развернута в сотнях точек присутствия (Points of Presence) по всему миру и служит единой точкой входа для большинства сервисов Microsoft.
Что именно произошло?
Microsoft официально подтвердила, что первопричиной инцидента стало непреднамеренное изменение конфигурации Azure Front Door.
We suspect that an inadvertent configuration change as the trigger event for this issue
Ошибочная конфигурация запустила цепную реакцию сбоев на нескольких уровнях инфраструктуры.
DNS-слой: конфигурационная ошибка вызвала масштабные сбои DNS resolution. Запросы к эндпоинтам Azure начали возвращать таймауты или некорректные ответы.
Routing и TLS: ошибка маршрутизации привела к потере capacity на edge-узлах. TLS handshakes перестали работать на границе сети, генерируя HTTP 502/504 ошибки даже при работоспособных backend-сервисах.
Аутентификация: критичная зависимость Microsoft Entra ID (бывший Azure AD) от AFD привела к тому, что эндпоинты аутентификации стали недостижимы. Это заблокировало выдачу и валидацию токенов, что каскадно повлияло на все зависимые от аутентификации сервисы.
Ключевая архитектурная уязвимость заключалась в том, что централизованная edge-инфраструктура (AFD) в сочетании с централизованным провайдером идентификации (Entra ID) создали единую точку отказа (Single Point of Failure, SPOF) для всей экосистемы Microsoft Cloud. Когда конфигурационные изменения были применены глобально к AFD без staged rollout (поэтапного развертывания), ошибка распространилась на все географические регионы в течение нескольких минут.
Хронология
Начало инцидента и обнаружение
16:00 UTC — инцидент начался с применения ошибочной конфигурации к Azure Front Door. Телеметрия Microsoft зафиксировала потерю availability и DNS-аномалии.
16:23-16:40 UTC — первая волна пользовательских репортов начала поступать на DownDetector. Количество сообщений о проблемах с Azure начало резко расти.
16:30 UTC — количество репортов достигло критических значений. Более 18000 пользователей сообщили о проблемах с Azure на DownDetector. Около 11700 пользователей сообщили о проблемах с Microsoft 365. Приблизительно 10000 сообщений о проблемах с Xbox.
Эскалация и официальная реакция Microsoft
17:04 UTC — Microsoft опубликовала первое официальное обновление на Azure Status Page, подтверждая проблемы с Azure Front Door и доступом к Azure Portal:
Starting at approximately 16:00 UTC, we began experiencing DNS issues resulting in availability degradation of some services. Customers may experience issues accessing the Azure Portal.
18:00 UTC — Microsoft идентифицировала непреднамеренное изменение конфигурации как предполагаемую первопричину:
We suspect that an inadvertent configuration change as the trigger event for this issue. We are taking two concurrent actions where we are blocking all changes to the AFD services and at the same time rolling back to our last known good state.
18:08 UTC — Microsoft объявила о начале отката к последней работающей конфигурации.
18:24 UTC — обновление с прогнозом: развертывание отката конфигурации ожидается в течение 30 минут, после чего клиенты должны увидеть первые признаки восстановления.
Митигация и восстановление
18:30-19:00 UTC — Azure Portal начал частично восстанавливать доступность, error-репорты на DownDetector появляются реже, сервисы начали возобновлять работу по мере восстановления edge-узлов.
18:27 UTC — количество репортов на DownDetector снизилось до 3299 с пика в 18000.
19:00-20:00 UTC — достигнуто восстановление большинства сервисов.
Техническая реакция Microsoft
Первые 30 минут
Emergency change freeze: Microsoft заблокировала все дальнейшие изменения AFD services, включая изменения в пользовательских конфигурациях, чтобы предотвратить усугубление ситуации.
Root cause identification: команда идентифицировала configuration change как trigger. Определила, какая конкретно конфигурация вызвала сбой.
Parallel mitigation paths: Microsoft запустила две параллельные стратегии восстановления — откат к последнему стабильному состоянию и перенаправление трафика.
Traffic rerouting и failover (30-90 минут)
Microsoft перенаправила Azure Portal traffic в обход AFD на альтернативную инфраструктуру, восстанавливая доступ к интерфейсу администрирования. Команда переключила критичные внутренние сервисы на обходные маршруты. Здоровые ноды AFD начали принимать перераспределенный трафик от сбойных нод.
Configuration rollback (60-120 минут)
Deployment последней корректно работающей конфигурации AFD начался с estimated completion time в 30 минут. Rollback выполнялся прогрессивно через сотни AFD Points of Presence по всему миру. Microsoft осуществила restart unhealthy orchestration units (вероятно, Kubernetes pods управляющие AFD-сервисами).
Gradual recovery (120-240 минут)
По мере развертывания стабильной конфигурации, edge nodes постепенно возвращались в healthy state. Трафик постепенно мигрировал обратно на восстановленные AFD-узлы с балансировкой нагрузки. Клиенты начали наблюдать улучшение доступности сервиса.
Workarounds для клиентов
Microsoft рекомендовала временные обходные решения. Для управления ресурсами во время недоступности Portal предлагалось использовать Azure PowerShell, Azure CLI, и REST APIs — эти методы оставались функциональными, так как не полностью зависели от AFD. Для failover критичных приложений рекомендовалось использовать Azure Traffic Manager для переключения траффика на альтернативные эндпоинты. Предлагалось отправлять запросы напрямую, обходя AFD при возможности.
Update 30 октября
Полное восстановление и предварительный анализ
00:05 UTC 30 октября — Microsoft официально подтвердила полную митигацию инцидента AFD после расширенного мониторинга состояния системы. Доступность сервиса AFD достигла 98% до завершения восстановления.
Согласно Preliminary Post Incident Review, опубликованному Microsoft, инцидент охватил период между 15:45 UTC 29 октября и 00:05 UTC 30 октября 2025 года. Полная продолжительность составила приблизительно 8 часов 20 минут, хотя некоторые клиенты до сих пор не восстановили свою инфраструктуру.
Комментарии (4)

Anywake
29.10.2025 20:08Облака, белокрылые лошадки, улетают навсегда...
Продолжаем выпиливать инфраструктуру в облака и машем, машем...
mSnus
Только он и сейчас лежит...