Посади свинью за стол, она и ноги на стол...
В понедельник в 14:30 по московскому времени на серверах компании произошел сбой, который затронул более 15 000 корпоративных клиентов. Отказ оборудования зафиксирован в дата-центре, обслуживающем финансовый сектор. В результате инцидента на три часа оказались парализованы транзакции трех крупных банков и двух платежных систем.
Причины отказа оборудования и масштаб последствий
Первичный анализ показал, что причиной стала перегрузка системы охлаждения в южном модуле ЦОДа. Температура в серверных стойках поднялась до критических 85 градусов Цельсия, что привело к автоматическому отключению 40% вычислительных мощностей. Инженеры компании в ручном режиме переключили нагрузку на резервные линии, однако полное восстановление функциональности заняло 180 минут.Реакция регулятора и страховые механизмы
Центральный банк уже запросил детальный отчет об инциденте. По предварительным оценкам, ущерб от не проведенных в срок платежей и срывов сделок может составить от 200 до 500 миллионов рублей. Согласно регламенту, провайдер обязан выплатить неустойку в размере 0,1% от стоимости контракта за каждый час простоя, однако это покрывает лишь малую часть реальных потерь клиентов. Представители пострадавших банков заявили, что намерены подать коллективный иск. Они настаивают на пересмотре стандартных соглашений об уровне обслуживания (SLA), которые, по их мнению, не учитывают современные риски, связанные с тепловыделением высокоплотного оборудования. Отключение затронуло не только процессинг, но и облачные хранилища данных. Потери данных не зафиксированы, однако доступ к архивам и базам 1С был заблокирован до полного остывания серверов. Сейчас компания-провайдер развертывает дополнительные мобильные системы охлаждения и обещает в течение недели провести стресс-тесты всех модулей. В прошлом году этот же дата-центр уже попадал в сводки из-за сбоя в работе дизель-генератора во время планового отключения электричества. Тогда простой составил 45 минут, и инцидент списали на человеческий фактор. Текущий случай показывает, что проблема носит системный характер — инфраструктура не справляется с растущей плотностью размещения оборудования. Для рынка это сигнал: стандартные SLA больше не гарантируют непрерывность бизнеса. Клиенты будут требовать внедрения независимого мониторинга температуры в реальном времени и права на внеплановые аудиты ЦОДов.Опубликовано: Мировое обозрение Источник














