Microsoft опубликовала анализ причин вызвавших глобальный сбой облачных продуктов
Фото: Pixabay
Начиная примерно с 17:30 по восточноевропейскому времени в понедельник, 28 сентября, клиенты начали сообщать, что не могут войти в Microsoft и сторонние приложения, которые использовали Azure Active Directory (Azure AD) для аутентификации. В число проблемных продуктов вошли Office 365 и другие облачные службы Microsoft.
Согласно отчёту Microsoft, пользователи в Северной и Южной Америке и Австралии, вероятно, пострадали больше, чем в Европе и Азии.
Microsoft признала, что сбой в серверных службах Azure AD вызвало обновление службы, нацеленное на внутреннюю контрольную сеть.
«Скрытый дефект кода в системе безопасного развёртывания (SDP) серверной службы Azure AD привёл к тому, что обновление было развёрнуто в нашей производственной среде, пройдя наш обычный процесс проверки», — заявили официальные лица компании.
В течение пяти минут после появления проблемы инженеры Microsoft обнаружили проблему. «В течение следующих 30 минут Microsoft начала предпринимать шаги по смягчения последствий путём горизонтального масштабирования некоторых служб Azure AD для обработки нагрузки и переключения определённых рабочих нагрузок в резервную систему проверки подлинности Azure AD» — сообщают в компании.
К сожалению, автоматический откат Microsoft завершился неудачно из-за повреждения метаданных SDP. Поэтому команда начала вручную обновлять конфигурацию сервиса, минуя систему SDP.
Microsoft заявляет, что вся операция была завершена примерно к 20:00 по восточному времени. Microsoft заявляет, что «все экземпляры служб с остаточным воздействием были восстановлены» более чем через два часа после этого.
Представители Microsoft заявили, что устранили скрытый дефект кода в бэкэнд-системе SDP Azure AD. Инженеры исправили существующую систему отката и расширили объем и частоту тренировок по откату.
Команде по-прежнему необходимо применить дополнительные средства защиты к системе Azure AD SDP, чтобы предотвратить подобные проблемы. Также необходимо ускорить развёртывание системы проверки подлинности резервного копирования Azure AD для всех ключевых служб и включить сценарии Azure AD в автоматизированный конвейер связи, чтобы в течение 15 минут сообщить затронутым клиентам о том, что происходит.
1 октября, Exchange и Outlook снова вызвали проблемы у пользователей, преимущественно проживающих в Европе. Официальные лица Microsoft назвали недавнее обновление конфигурации причиной вчерашних проблем.
Как сообщал Startpack, ранее Microsoft открыла доступ к новому инструменту тестирования уязвимостей.
Комментариев пока не было