Жидкости в ЦОД: как предотвратить утечки и снизить риски?
В эпоху жидкостного охлаждения операторы дата-центров не могут позволить себе пренебрежительно относиться к системам обнаружения утечек хладагентов и других технических жидкостей. Слишком многое на кону.
Чужие ошибки, на которых стоит учиться
В апреле 2023 года ряд продуктов Google оказался недоступен по всей Европе. Из строя вышла облачная зона доступности europe-west9-a. Пострадали многочисленные клиенты корпорации, включая мобильного оператора Orange и разработчика видеоигр Ubisoft. Перебои в работе сервисов Google продолжались около 24 часов.
Причиной проблемы стал пожар, вызванный утечкой воды из трубы системы охлаждения в дата-центре в Париже, используемом Google и предоставленным колокейшн-провайдером Global Switch. Согласно отчету о происшествии, утечка «возникла в помещении ЦОД, не используемом Google, после чего жидкость проникла в смежное помещение с системами бесперебойного электропитания и привела к пожару». Для тушения пожара потребовалась эвакуация персонала, привлечение местной пожарной службы и отключение электропитания всего здания ЦОД на несколько часов.
Другие клиенты Global Switch также потеряли доступ к своим серверам из-за пожара. Пусть огонь и удалось сравнительно быстро локализовать, но инцидент подчеркивает потенциально высокий ущерб, который может причинить даже небольшая утечка воды при отсутствии быстрого обнаружения и оперативного реагирования.
Кроме того, помимо угрозы, которую такие инциденты представляют для IT-оборудования, операторам дата-центров необходимо учитывать влияние утечек на окружающую среду. В ноябре 2024 года команда ЦОД в промышленном парке в Оффенбахе (Германия) столкнулась с утечкой, в результате которой жидкость из системы охлаждения просочилась в почву. Утечка произошла в системе трубопроводов на крыше, но жидкость проникла в землю под зданием через систему инфильтрации и аккумулирования дождевой воды.
Сообщалось, что охлаждающая жидкость содержала «низкую концентрацию добавок для защиты от коррозии и консервации», причем два вещества в её составе были признаны опасными. К счастью для команды ЦОД, ближайшие источники питьевой воды находились на расстоянии 1,5 км от серверной фермы. Поэтому вероятность их загрязнения оказалась низкой. Однако с момента обнаружения протечки органы санитарного надзора региона непрерывно мониторят состояние грунтовых вод на предмет загрязнения.
На помощь приходят системы обнаружения утечек воды. Ранее эти системы часто выступали второстепенным элементом в процессе строительства дата-центров. Но растущее количество жидкости, протекающей через машзалы в эпоху популяризации искусственного интеллекта, существенно повысило их значимость.
Точки отказа
Как вода попадает в серверные? Наиболее распространенные точки отказа:
- Кондиционеры для машзалов. Утечки жидкости происходят в самых разных частях ЦОД. Источниками могут выступать системы кондиционирования воздуха для серверных помещений или так называемые CRAC (Computer Room Air Conditioning), которые встречаются в большинстве старых дата-центров. Они используют жидкости, поэтому любое повреждение этих систем может привести к затоплению.
- Трубы. В случае небольших дата-центров или серверных также имеются источники рисков. Особенно при их размещении в больших многофункциональных зданиях, включая офисные комплексы. Серьёзной проблемой могут стать корродированные трубы в других частях здания. Например, при размещении серверной в высотном здании прямо над ней может находиться кухня или туалет. Между этими помещениями и помещениями дата-центра, где находится критически важное оборудование, практически нет защитных барьеров.
- Крыша и человеческий фактор. Помимо труб, вода может попадать в помещения с IT-оборудованием через протекающие крыши или из-за человеческой ошибки – будь то случайные проливы или некорректное обслуживание оборудования.
В случае больших дата-центров задачи, связанные с обнаружением утечек воды, как правило, решаются более эффективно. Особенно, если ЦОД находится в специально спроектированных зданиях. Многие проблемы достаточно хорошо устраняются инженерными решениями. Тем не менее, даже там в летние месяцы можно столкнуться с конденсатом в «холодных коридорах». Внешние факторы, включая экстремальные погодные условия и катаклизмы, также могут быть причиной утечек.
Экологические последствия таких инцидентов все чаще выходят на первый план. Ставки в экологическом плане становятся всё выше из-за давления общественности, а также ужесточения правил и контроля со стороны регулирующих органов.
Увеличение объема жидкостей внутри типичного ЦОД
Количество воды и других технических жидкостей в дата-центрах продолжает расти. Да, охлаждающая жидкость присутствует и в традиционных системах воздушного охлаждения, которые десятилетиями применялись в ЦОД. Но многие проектировщики серверных ферм, особенно нацеленные на развертывание вычислительных мощностей с высокой плотностью размещения комплектующих для обслуживания искусственного интеллекта, выбирают решения на основе жидкостного охлаждения.
Перечень этих систем включает прямоконтактное охлаждение микрочипов, при котором охлаждающая жидкость подаётся непосредственно на охлаждающие пластины рядом с CPU / GPU, поддерживая стабильную температуру компонентов. Альтернатива – иммерсионное охлаждение, при котором серверы полностью погружаются в резервуары с токонепроводящей жидкостью.
По этой причине, а также из-за всё более существенных инвестиций в инфраструктуру дата-центров, владельцы и операторы корпоративных и коммерческих ЦОД увеличивают затраты на технологии обнаружения утечек. Как отмечают поставщики соответствующих решений, за последние годы объёмы заказов на такие системы значительно выросли – со стороны как владельцев корпоративных и облачных ЦОД, так и колокейшн-провайдеров.
Растущие капиталовложения
По словам представителей профильных компаний, услуги и продукты которых пользуются высоким спросом, необходимость минимизировать риск повреждения компонентов ЦОД из-за воды и других технических жидкостей никогда не была столь высокой.
Сегодня в дата-центры вкладывается больше денег, чем когда-либо прежде – во многом «по касательной», то есть благодаря инвестициям в искусственный интеллект. Инвесторам нужны гарантии безопасности своих вложений. Они стремятся избежать любых рисков. Соответственно, владельцам и операторам ЦОД, а также их проектировщикам и строителям, нужно вселить в инвесторов и клиентов уверенность в надежности инфраструктуры. Например, через наличие защитных систем и сертификацию на соответствие релевантным стандартам.
Так было не всегда. Многие поставщики решений для обнаружения протечек, основали бизнес еще в «девяностые» или «нулевые» в смежных областях. Например, внедряли системы управления зданиями (Building Management Systems; BMS) в дата-центрах и на других промышленных объектах. Системы BMS позволяют централизовать управление всеми электрическими и механическими компонентами подконтрольного объекта, включая системы обнаружения утечек воды.
По достоинству оценив высокий коммерческий потенциал, которым обладают такие системы, и увидев новые возможности, некоторые вендоры решили переориентировать бизнес и начали специализироваться в области обнаружения утечек в ЦОД. Предлагая услуги на всех этапах жизненного цикла, включая проектирование, техобслуживание и обучение персонала, они создали узкоспециализированный бизнес с акцентом на качество.
И спрос на услуги таких фирм стабильно рос. Восприятие систем обнаружения протечек постепенно эволюционировало: они превратились из второстепенной технологии, на которой все хотели сэкономить деньги, в ключевой элемент в процессе проектирования и строительства ЦОД.
Технологии обнаружения протечек
Многие компоненты дата-центров претерпели значительные технологические изменения за последние годы. Но технологии обнаружения утечек воды остаются относительно неизменными. Такие системы можно разделить на два типа:
- кабели для детектирования жидкости, также известные как ленты для обнаружения утечек;
- точечные сенсоры.
Эксперты рекомендуют использовать системы на основе кабелей в большинстве дата-центров. Они обеспечивают надёжный барьер вокруг:
- стоек;
- потенциальных источников утечек, включая трубопроводы;
- или даже по периметру дата-центра.
Кабели состоят из нескольких токопроводящих проводов, заключённых в гибкий защитный материал. Эти провода обычно разделены изоляционными материалами, чтобы предотвратить контакт в нормальных условиях. Когда они соприкасаются с водой, подаётся сигнал тревоги. Кабели для обнаружения утечек обычно прокладываются:
- вокруг серверов в машзале;
- вдоль верхней части стоек с лотками для улавливания любой жидкости, которая может упасть сверху;
- под фальшполом дата-центра.
Длина кабелей может достигать 50 метров. Дата-центр обычно разделяется с их помощью на разные зоны, что позволяет определить утечку в определённой области конкретного машзала или иного помещения. Это может быть зона размером всего один квадратный метр, что упрощает обнаружение и устранение утечки. Важно подобрать подходящую BMS-систему, способную эффективно обрабатывать информацию, полученную от кабелей. Многие системы генерируют наглядные цифровые карты с отображением мест возникновения возможных утечек.
Сверхчувствительность кабелей и более надежная альтернатива с ограниченным применением
Работа этих кабелей основана на принципе замыкания простой электрической цепи. Обычно кабели содержат две нержавеющие стальные проволоки с изоляционным материалом между ними. При контакте с водой или другой проводящей жидкостью сопротивление уменьшается, замыкая цепь и активируя тревогу или оповещение на BMS-терминал. Кабели очень чувствительны, что позволяет выявлять утечки на самых ранних этапах и потенциально спасать дата-центр от серьёзного ущерба. Однако это также может быть недостатком.
Распространённая проблема при эксплуатации таких кабелей заключается в том, что если они расположены в зонах с интенсивным движением людей или там, где часто перемещается оборудование, эти устройства могут легко загрязняться. Загрязнение приводит к частым срабатываниям тревоги, которые со временем начинают игнорироваться персоналом.
Для таких зон существуют точечные детекторы, которые можно размещать по всему помещению или под конкретными устройствами. Они подают сигнал тревоги при прямом контакте с водой, но не обеспечивают столь же существенного уровня покрытия (охвата), который предлагают кабели.
Поддержание в рабочем состоянии
Для эффективной эксплуатации систем обнаружения утечек операторы дата-центров должны постоянно следить за их техническим состоянием, чтобы обеспечить защиту оборудования. Основная рекомендация покупателям кабелей для обнаружения утечек заключается в том, что их нужно заменять каждые десять лет. Рекомендуется проводить ежегодные проверки технического состояния, тестировать каждую отдельную зону и проверять резервные батареи системы.
При установке новых систем использование открытых протоколов может значительно упростить жизнь. Многие компании разрабатывают решения на основе открытых стандартов, что облегчает их подключение и обслуживание.
Благодаря открытым протоколам системы могут обслуживаться несколькими подрядчиками. Таким образом, конечный пользователь получает решение, которое проще в управлении и предлагает более высокую долгосрочную ценность. Это также облегчает обучение собственных инженеров компании, чтобы они могли поддерживать систему в рабочем состоянии.
Легкомыслие, которое может обернуться аварией
Многие компании, управляющие дата-центрами, всё ещё пренебрегают системами обнаружения утечек. Даже при их развёртывании очень немногие клиенты приглашают представителей поставщиков оборудования для периодического обучения своего персонала. Обычно вендоры проводят обучение сразу после установки, но затем сотрудники меняются, а тренинги не проводятся. Более того, не ведётся точное документирование процедур, так что никто не знает, какие действия были выполнены и кем.
Жидкостное охлаждение добавляет новый уровень сложности в проблему обнаружения утечек. Проектировщики ЦОД, как правило, принимают меры предосторожности при организации транспортировки охлаждающих жидкостей в новых дата-центрах. Однако это происходит не всегда. Жидкость может создавать проблемы уже на этапе проектирования. Подрядчики иногда пытаются прокладывать трубопроводы через помещения с электрораспределительным оборудованием, размещая под ними поддоны для сбора капель. В таких случаях важно вмешаться на раннем этапе и предложить перенаправить эти трубы.
Выводы
Системы обнаружения утечек – сравнительно простой инструмент, для использования которого не требуются сложные инженерные решения. Но после установки системы важно поддерживать её в рабочем состоянии.
Также нужно подумать о том, как реагировать при срабатывании тревоги. Какие клапаны нужно закрыть, что нужно отключить? Пользователи часто покупают систему обнаружения утечек, создают карту покрытия ЦОД с разделением на зоны, но не начинают прорабатывать цепочку дальнейших действий. Важно подходить к этому вопросу комплексно.
The post Жидкости в ЦОД: как предотвратить утечки и снизить риски? appeared first on Новости рынка ЦОД, обзор инженерных решений Дата-Центров.