Согласно информации издания Register, причиной недавнего масштабного сбоя многих облачных сервисов Microsoft, включая Office 365, стал сервис Azure Active Directory (AAD). Компания слишком понадеялась на надежность своего облачного сервиса, который фактически стал единой точкой отказа. Из-за проблем внутри AAD пользователи более пяти часов не могли войти в свои аккаунты, получать почту и работать с офисными приложениями, были недоступны сервисы OneDrive и SharePoint.
Облачная служба Azure Active Directory контролирует все, от электронной почты Outlook до Teams и портала Azure, используемого для управления другими облачными службами Microsoft. Проблема затронула даже локальные установки Microsoft Office и Visual Studio — система писала, что не может проверить, что эти продукты лицензированы и, следовательно, они не будут работать далее, пока не подтвердиться факт покупки лицензии.
По некоторым данным, пострадали системы службы экстренной помощи 911 в США. Эта система основана на Rapid Deploy Nimbus Dispatch и является автоматизированной платформой диспетчеризации на базе Microsoft Azure.
Таким образом, в AAD произошла нештатная ситуация, когда возникла серьезная проблема в проверке подлинности многих приложений. Причем отказоустойчивость системы подвела — переключение трафика на сервера в других регионах для Azure не помогло.
Официальная причина, озвученная Microsoft — изменение конфигурации AAD повлияло на работу систем внутреннего хранилища, что вызвало задержку запросов аутентификации.
Далее компания пыталась объяснить действия своих сотрудников по устранению проблемы — «мы откатили изменение, которое, вероятно, является источником воздействия», «мы не наблюдаем увеличения количества успешных подключений после отката недавнего изменения», «мы перенаправляем трафик в альтернативную инфраструктуру, чтобы улучшить взаимодействие с пользователями», «мы наблюдаем улучшения в работе нескольких служб после применения мер по снижению рисков».
Причем часть проблем так и не была оперативно решена — некоторые корпоративные пользователи и далее не могли получить доступ к SharePoint Online или OneDrive. Позже Microsoft пояснила, что пересматривает процедуры развертывания и подготовки облачных сервисов, чтобы предотвратить подобные проблемы в будущем.
Ранее в августе этого года технический директор Azure Марк Руссинович пояснил, что компания осознает печальную реальность, заключающуюся в том, что, учитывая глобальные масштабы клиентских операций и необходимость в изменениях многих сервисов, нельзя полностью избежать отключений в облачной инфраструктуре.
Microsoft сейчас как никогда обеспокоена общей архитектурой и реализацией Azure, несмотря на усилия, направленные на обеспечение устойчивости, и улучшение показателей доступности услуг этого облачного сервиса за последний год.
Сейчас специалисты Microsoft, которые так много сделали сервисов, поддерживающих Azure Active Directory, понимают, что это единственная точка отказа. Компании планирует сделать эту систему более устойчивой, чтобы отказ в ее работе минимально сказывался на пользователях и сервисах. Однако, это будет сделать сложно. Возможно, что компании стоит подумать о постепенном снижении зависимости такого количества сервисов от одного облачного решения.
Microsoft также рассказала об инциденте и шагах по его устранению у себя на портале. Скрытый дефект кода в системе безопасного развертывания (SDP) серверной службы Azure AD привел к тому, что обновление было развернуто непосредственно в нашей производственной среде, пройдя внутренний процесс проверки. Azure AD предназначена для географического распределения и развертывания с несколькими разделами в нескольких центрах обработки данных по всему миру и построена с несколькими границами изоляции. Сбой в работе обновления привел к нарушению этих границ.
В течение пяти минут после появления проблемы инженеры Microsoft поняли, что что-то не так. Далее в следующие 30 минут Microsoft начала принимать меры по устранению проблемы путем переноса некоторых служб Azure AD в систему обработки нагрузки и переключения определенных нагрузок на резервную систему Azure AD. К сожалению, автоматический откат конфигурации Microsoft не удался из-за повреждения метаданных SDP. Поэтому инженеры вручную обновляли конфигурацию сервиса, минуя систему SDP в течение двух часов.
28 сентября 2020 года многие пользователи Microsoft Office 365 в США, Австралии и Японии столкнулись с невозможностью войти в свой аккаунт в сервисе, пропал доступ к к электронной почте. У них отображалась ошибка «AADSTS90033: A transient error has occurred. Please try again». Microsoft пояснила, что эта проблема на их стороне, и часть пользователей действительно могут не иметь доступа к нескольким службам Microsoft 365, использующим Azure Active Directory (AAD), включая Outlook, Microsoft Teams, Live Events Teams, а также Office.com. Кроме того, этот инцидент повлиял на работоспособность Power Platform и Dynamics365.
homeles
Хотел написать — «ну и кто теперь в ОБЛАКА захочет» — ведь собственного админа легче «вздрючить». НО — неоднозначно это все, надо просчитывать экономическую целесообразность владения инфраструктурой в облаке (с учетом вот таких вот траблов, на которые повлиять не сможешь, однако — не частых) либо собственной — про админа не говорю (даже в случае облака кто-то должен рулить инфраструктурой, просто сервера у него будут «несколько подальше»). А с учетом того, что компания Microsoft на десктопных-серверных продуктах в лицензионных соглашениях совершенно снимает с себя ответственность за различные потери, в том числе и из-за обновлений, то в облачных продуктах это, наверное, еще безответственнее.
poisons
Малый бизнес уже давно сидит в облаках и вполне не плохо сидит. Все упирается в стоимость владения системой. Вот самое простое — почта, рабочий инструмент для многих компаний. Если в команде 10-100 человек, то иметь свой почтовый сервер просто непомерно дорого в пересчёте на одного пользователя, когда тот же office365/gsuite вполне закрывает эту задачу в довесок предлагая ещё ворох сервисов сопутствующих.
razielvamp
Дык в конечном счете админы и менеджмент тех. отдела и решают переезжать в облака или нет.
И кого будут *ть за проколы, один из плюсов для админов при переезде.
ЗЫ уже попкорн кончается за факапами микрософта наблюдать...