Аварии в ЦОД: новости из Канады, Великобритании, Бразилии, США и не только
В канадском ЦОД Sato Technologies вспыхнул пожар
В коммерческом дата-центре компании Sato Technologies Corp. вспыхнул пожар. Огнем было повреждено IT-оборудование внутри ЦОД, который также известен под кодовым именем Sato Center One. ЦОД находятся в Квебеке (Канада) и используется для размещения клиентского оборудования для криптомайнинга.
Причина возгорания, случившегося в ночь на субботу 1 июня 2024 года, неясна. Сообщается лишь, что пожар вспыхнул в самой старой части здания. IT-оборудование, принадлежащее клиентам основанной в 2017 году компании Sato Technologies Corp, пострадало не только от огня, но и от воды, поскольку в здании сработала система пожаротушения. К счастью, обошлось без жертв и травм среди персонала.
Пострадавший дата-центр компании имеет мощность 20 МВт. Площадь ЦОД составляет 2320 квадратных метров. Ранее сообщалось, что внутри этой коммерческой серверной фермы работало 5 400 единиц оборудования для майнинга биткоинов.
В ЦОД правительства Великобритании произошло отключение электроэнергии
В первой половине мая 2024 года в коммерческом дата-центре, использующемся Министерством окружающей среды, продовольствия и сельского хозяйства Великобритании (DEFRA), произошел четырехдневный сбой. Причиной стало отключение электроэнергии. Подробности не разглашаются. DEFRA — известный клиент провайдера облачных услуг Amazon Web Services (AWS). Ранее ведомство заключило с AWS сделку на сумму 20,8 млн фунтов стерлингов.
Отмечается, что ущерб в контексте снижения качества предоставляемых ведомством услуг был минимальным. В результате сбоя в ЦОД пострадала система автоматической проверки лицензий (ALVS), которая регулирует эксперт сельхозпродукции. ALVS была недоступна с утра 11 мая по вечер 14 мая. В ведомстве утверждают, что никакого негативного влияния на поток товаров через границу Великобритании из-за сбоя в ее работе зафиксировано не было.
Ленивец застрял в серверной стойке в дата-центре бразильского университета
Операторы ЦОД, принадлежащего Федеральному университету Параибы, обнаружили внутри одной из серверных стоек ленивца. Он зацепился за провода и не мог выбраться наружу. Местная пресса сообщила, что существо было обнаружено 8 мая 2024 года.
Некоторые пользователи соцсетей и журналисты предположили, что животное, возможно, пыталось согреться, используя тепло IT-оборудования. Сотрудник службы безопасности университета вернул ленивца в близлежащий лес. Освободившись из плена, животное на удивление быстро скрылось.
Федеральный университет Параибы — государственный вуз, главный кампус которого расположен в городе Жуан-Пессоа, штат Параиба (Бразилия). Наряду с Федеральным университетом Кампина-Гранде, он считается одним из главных вузов штата.
Время от времени животные, вызывают сбои в работе ЦОД. Чаще всего проблемы возникают, когда они перегрызают линии электропередачи и оптоволокно. Но животные редко оказываются в машзалах ЦОД, хотя такие инциденты все же периодически случаются. Например, в 2016 году кошки заполонили британский ЦОД, оставив после себя много шерсти и фекалий. В другую серверную ферму, находившуюся в процессе вывода из эксплуатации, в 2019 году вломился олень. Местоположение этого дата-центра в новостях об инциденте не указывалось с целью снижения репутационного ущерба.
Клиенты Bank of Montreal лишились доступа к своим деньгам из-за аварии в ЦОД
Утром 30 мая 2024 года клиенты канадского банка Bank of Montreal столкнулись с недоступностью ряда цифровых сервисов. Причиной сбоя в обслуживании стали инцидент в дата-центре. Клиенты сообщали о проблемах с доступом к банковским услугам через приложение и официальный сайт финансовой организации.
Цифровые платформы Bank of Montreal вернулись в строй к обеду того же дня. Впоследствии представители банка сообщили, что сбой в обслуживании произошел «из-за ложной тревоги, имевшей место ночью 29 мая 2024 года» в одном из корпоративных дата-центров. Подчеркивается, что сбой не повлиял на предоставление банковских услуги через местные отделения Bank of Montreal.
1,5 тыс. авиарейсов Southwest Airlines задержаны или отменены из-за сбоя в ЦОД
29 мая 2024 года компания Southwest Airlines оказалась вынуждена задержать сотни авиалайнеров, прилетавших и вылетавших из Международного аэропорта имени Тургуда Маршалла в Балтиморе / Вашингтоне (США). По данным FlightAware, 29 мая у Southwest Airlines были задержки на 1495 рейсах (36% от общей полетной программы). Данные Flightradar24 показали, что авиакомпании пришлось отменить 40 рейсов за день. Благо, никто не пострадал. Службы технического обслуживания авиакомпании провели тщательное расследование.
Причиной названо отключение подачи электроэнергии в одном из ЦОД, используемых авиаперевозчиком. Злополучный сбой случился в серверной ферме, находящейся в районе Далласа, штат Техас. Инцидент произошел на фоне установления суровых погодных условий в Техасе.
По словам представителя Southwest Airlines, последствия отключения электроснабжения удалось устранить к вечеру того же дня. Несмотря на оперативность инженеров, многие рейсы оказались задержаны, пока команда специалистов устраняла сбои и перезапускала системы. Авиаперевозчик принес извинения клиентам и поблагодарил их за терпение.
Ранее Southwest Airlines выплатила штраф в размере $35 млн в рамках соглашения по досудебному урегулированию федерального расследования последствий аналогичного инцидента, случившегося в декабре 2022 года. Тогда авиакомпания отменила тысячи рейсов и задержала более 2 миллионов путешественников в праздничные дни.
Uptime Institute: “выгорание” – одна из главных причин аварий в ЦОД
Помимо природных явлений и техногенных катастроф, животных и сбоев в работе оборудования, есть еще одна важная причина аварий в ЦОД – “человеческий фактор”. Причем эта проблема усугубляется в случае “выгорания” сотрудников.
Эксперты организации Uptime Institute проанализировали проблему и пришли к выводу о том, что справиться с этой проблемой и, соответственно, минимизировать количество и серьезность человеческих ошибок позволяет переход к более коротким сменам.
Каждый 4й оператор ЦОД, опрошенный Uptime Institute, в течение последних 3 лет столкнулся с серьезными сбоями в работе инфраструктуры в результате человеческой ошибки. Более того, половина респондентов опроса отметила, что эти ошибки были вызваны несоблюдением процедур. В Uptime Institute признали, что регулярное обучение, практика и опыт могут снизить вероятность ошибок, вызывающих сбои в ЦОД, но еще один фактор, который, вероятно, упускается из виду, — это усталость.
Хорошо известно, что люди с большей вероятностью совершают ошибки, когда устают. А усталость неизбежно возникает при длительной смене. Хотя опрос персонала ЦОД, проведенный Uptime Institute, показал, что средняя смена работников серверных ферм составляет от 8 до 10 часов, этот показатель значительно варьируется в зависимости от региона.
Например, в Азиатско-Тихоокеанском регионе более 1/5 респондентов сообщили о сменах продолжительностью более десяти часов. Для сравнения: в Европе практикуются более короткие пяти-семичасовые смены. Они там встречаются в три раза чаще, чем в Азиатско-Тихоокеанском регионе.
Одна из причин этого заключается в том, что европейское трудовое законодательство часто предусматривает защиту от ночных смен продолжительностью более восьми-десяти часов. В Америке более короткие смены встречаются реже, что объясняется привязкой к 40-часовой рабочей неделе.
Чтобы проиллюстрировать связь между продолжительностью смены и усталостью / человеческими ошибками, аналитики из Uptime Institute процитировали результаты исследований Китайского университета в Гонконге и Финского института гигиены труда. В обоих случаях обнаружилась четкая корреляция между этими двумя показателями. То есть сокращение рабочего времени может быть полезным для многих операторов ЦОД. Но добиться этого не всегда возможно. Почему? Из-за дефицита кадров.
Как ранее выяснили в Uptime Institute, нехватка персонала в ЦОД остается серьезной проблемой. Ожидается, что ситуация продолжит обостряться по мере выхода большой группы работников на пенсию в течение следующих нескольких лет. Из-за этого у многих операторов ЦОД нет другого выбора, кроме как продлевать смену до 12 часов, чтобы компенсировать отсутствие сотрудников, что еще больше способствует “выгоранию” персонала.
По иронии судьбы, многие сотрудники дата-центров этому рады. Они часто отдают предпочтение 12-часовым сменам – либо из-за оплаты сверхурочных, либо потому, что такие смены впоследствии допускают более длинные выходные.
Чтобы решить эти проблемы, в Uptime Institute предложили владельцам ЦОД несколько рекомендаций, первая из которых очевидна. Нужно скорректировать численность персонала, чтобы уменьшить или устранить необходимость в сменах продолжительностью более 12 часов. Также предлагается следить за сверхурочной работой и периодами отдыха, чтобы в первую очередь гарантировать, что персонал не придет на работу уставшим. Наконец, аналитики предупредили, что, хотя сотрудники могут предпочитать более длительные смены, эти предпочтения редко учитывают потенциальное влияние на их производительность труда и здоровье.
В Uptime Institute предупредили, что изменения не следует вносить слишком быстро. Внезапное сокращение смен может оказать пагубное влияние на моральный дух и привести к увеличению количества ошибок, связанных с усталостью – по крайней мере, до тех пор, пока сотрудники не приспособятся к новому графику.
Нехватка персонала, с которой сталкиваются операторы и владельцы ЦОД, побудила некоторые компании изучить возможность использования роботов для выполнения тяжелой работы. После сбоя в ЦОД в Австралии в 2023 году Microsoft открыла вакансии для специалистов по автоматизации оборудования ЦОД, которые будут контролировать использование роботизированных систем в дата-центрах.
Корпорация Oracle уже использует четвероногих роботов Boston Dynamics в своих серверных фермах. Компании Meta и Jtek в 2023 году продемонстрировали роботизированную тележку, способную передвигать целые серверные стойки.