Как правильно организовать техническое обслуживание инженерной инфраструктуры корпоративного ЦОД
Олег Сорокин, 06/07/21
Грамотное и правильное техническое обслуживание любого оборудования – важный аспект его эксплуатации. Применительно к ЦОД это означает, что полноценный качественный сервис подарит месяцы и годы работы без сбоев и затрат на внезапный дорогостоящий ремонт. В этой статье поговорим об обслуживании небольших корпоративных дата-центров.
Пользователи мегаваттных ЦОД живут в немного другой реальности: у служб эксплуатации этих ЦОД большой собственный опыт, свои сервисные инженеры и налаженные контакты с производителями оборудования. А как быть сотрудникам ИТ-отдела организации, в которой для собственных нужд построен ЦОД? Делать все своими руками или положиться на аутсорс? Довериться словам интегратора "сто лет простоит" или купить сервис уровня "все включено"?
Рассмотрим некоторые моменты эксплуатации на основе нашего опыта – что мы видели, что можем подсказать или напомнить.
Гарантированное спокойствие. Или нет?
Часто бывает так, что наличие стандартной гарантии принимают за обещание производителя решить любые проблемы с оборудованием. Следствие этого заблуждения – тотальная экономия на обслуживании оборудования в первые годы эксплуатации. Но, конечно, наличие гарантии не отменяет необходимость проведения регламентного технического обслуживания, ведь оставленное без ухода оборудование начинает изнашиваться быстрее, чем рассчитывал производитель. Исходов два: либо отказ в гарантийном ремонте, либо выход оборудования из строя вскоре после окончания гарантийного срока. В обоих случаях начинают вспоминать "заговор производителей" и "запланированное старение", но на самом деле надо просто своевременно обслуживать технику.
Условия исполнения гарантийных обязательств могут быть зависимы от множества факторов, которые приходится учитывать с первого дня эксплуатации. Например, производитель может предъявлять требования к квалификации специалистов, проводящих плановое ТО, а сам факт обслуживания должен фиксироваться в специальных документах (акты, журналы и т.д.).
Есть еще один повод для печали: известны случаи, когда гарантийный ремонт осуществлялся с минимальным приоритетом, так как сервисное подразделение производителя в первую очередь выполняет заявки по платным контрактам.
В общем, лучше до гарантийного случая не доводить, а если все-таки пришлось – внимательно изучить все требования и подготовить подтверждения корректной эксплуатации.
Сервисные контракты
Допустим, неприятность случилась и оборудование вышло из строя. Бывают случаи, когда владельцы ЦОД пытаются оформить расширенную гарантию или сервис уровня "все включено" уже после поломки оборудования. Иногда это может сработать при отказе ИТ-оборудования. Например, некоторые производители коммутаторов или маршрутизаторов идут навстречу клиентам. Для оборудования инженерных систем производители обычно проводят предварительные тест-визиты, по результатам которых принимается решение о принятии оборудования на обслуживание. И в этом случае отказавшее оборудование сначала, еще до принятия на поддержку, придется отремонтировать за отдельные деньги.
По стоимости контракты с разным уровнем сервиса могут значительно различаться. В одном пакете услуг предусмотрены только выезды на диагностику, в другом включены запасные части, а в третьем – все и без ограничений по количеству. Если вы сэкономили на уровне сервиса и выбрали вариант без "бесплатных" запчастей, то вы должны быть твердо уверены, что в случае ремонта вам оперативно согласуют дополнительные (и, конечно, совершенно неожиданные) выплаты и подпишут необходимые счета на солидные суммы. Если невозможно оперативное согласование закупки запчастей, лучше сразу переплатить.
С другой стороны, при работе с подрядчиком широкого профиля можно в рамках комплексного сервиса для разных систем выбрать разные SLA (в зависимости от уровней резервирования и доступности ЗИП). Такой дифференцированный подход позволит сэкономить без ущерба для результата.
В общем, к сервисным контрактам надо относиться, как к страховке: оформлять заранее и внимательно изучать условия договора. Маленькая хитрость: если вы планируете купить подобный сервисный контракт, пригласите сервисных инженеров подрядчика на тест-визит до подписания контракта. Получится бесплатный аудит инфраструктуры, результаты которого можно использовать для принятия решения об объеме последующего сервиса.
Внимание к мелочам
Даже для автоматизированных объектов, работающих без присутствия человека, существует такая процедура, как регулярный осмотр. Несмотря на кажущуюся простоту и банальность, пренебрегать этой процедурой не следует. Наоборот, внимательный осмотр, даже без инструментального контроля, – это один из действенных способов избежать больших проблем. История из жизни: при проведении плановых работ в одном из ЦОД инженеры подрядчика по принципу "Заодно, раз уж пришли, просто поглядим" осмотрели систему гарантированного электропитания. Выяснилось, что резервная дизельная электростанция переведена в ручной режим и ее выход отключен. То есть в случае необходимости дизель бы не завелся и питание на ЦОД не подал бы. Причину этого состояния выяснить не удалось, найти виновных – тем более. Слой пыли на пульте управления подтвердил, что его давно уже никто не трогал. Но если бы проводились регулярные проверки, эту ситуацию удалось бы заметить раньше. Здесь же можно упомянуть и такие проблемы с ДЭС, как "разрядился стартерный аккумулятор", "радиатор забился листьями и двигатель перегрелся" и т.д. Да, конечно, далеко не все проблемы можно увидеть. Но многие.
Крайне желательно составить регламент регулярных осмотров, строго его соблюдать и не упускать никаких мелочей. Даже если "вчера все нормально было" – проверить еще раз. И при каждом посещении ЦОД обращать внимание на все, что выглядит "не так, как обычно".
Особый контроль батарей
Если у вас большой ИБП с немодульными батареями без системы мониторинга (BMS), особого внимания требует батарейный массив. Рекомендуется периодически проверять не только всю батарею "в сборе", но и каждый аккумулятор индивидуально. В стародавние времена существовали "батарейные журналы", куда записывались результаты регулярного (иногда ежемесячного) тестирования состояния аккумуляторов (напряжения, плотности электролита, температуры и т.д.). Сейчас, в эпоху герметичных аккумуляторов и умных ИБП, этим почти никто не занимается.
Однако каждый аккумулятор имеет свои уникальные характеристики: один получше, другой похуже. Разбег небольшой, доли процентов, но он есть. И если в одном "плече" оказались аккумуляторы с характеристиками, сильно отличающимися друг от друга, то сначала это можно будет заметить только по небольшому уменьшению суммарной емкости всего массива. Со временем ячейки с меньшей емкостью будут перезаряжаться, перегреваться, в итоге – выходить из строя. Например, повышенное газовыделение приведет к окислению клемм или внутреннее короткое замыкание превратит такой аккумулятор в перемычку. Следом плохо себя почувствуют те батареи, что были рядом с дефектной. Как закономерный итог – замена нескольких аккумуляторов вместо своевременной замены одного. Или еще хуже: ячейка с повышенным внутренним сопротивлением "прикидывается нормальной", но при переходе ИБП на батареи выясняется, что фактическая емкость батареи ниже, чем оценка. К тому же один элемент с повышенным внутренним сопротивлением ограничит отдаваемый всем батарейным массивом ток, и фактическое время работы окажется заметно меньше прогнозируемого.
Нужно проверять не только всю батарею "в сборе", но и каждый аккумулятор индивидуально
Подтянуть и поправить
Все клеммные соединения должны обеспечивать хороший контакт – это всем ясно. Но во время эксплуатации в них могут происходить различные и незаметные глазу процессы. Например, окисление клемм – проблема понятная, заметная, легко устраняемая, да и предотвратить ее несложно, достаточно использовать защитное покрытие или смазку. Менее известная проблема – постепенное ослабление затяжки болтовых соединений из-за температурного расширения. После пиковых нагрузок (например, после проведения испытаний или после КЗ в нагрузке) медные шины и кабельные наконечники нагреваются и немного увеличиваются в толщине. После остывания все размеры приходят в норму, но температурный коэффициент линейного расширения меди в 1,5 раза больше, чем стали, из которой сделаны болты. В итоге после нескольких перегрузок болты растягиваются, усилие затяжки уменьшается и контакт ухудшается. Проблема прогрессирует: чем хуже контакт, тем сильнее нагрев и тем сильнее растягиваются болты. Для борьбы с этим явлением можно использовать пружинные шайбы, но даже с ними лучше регулярно проверять все соединения. Что ослабло – подтянуть, пока не поздно. Для проверки необязательно лезть руками в электрощит, можно проверить его тепловизором – он покажет места, где нагреваются плохие контакты. Шины заземления следует проверять приборами и ручным инструментом (контролировать момент затяжки болтового соединения динамометрическим ключом), здесь тепловизор не поможет.
Я просто отсекаю лишнее…
Популярно мнение, что сложные системы чаще ломаются. Поэтому иногда возникает соблазн отказаться от некоторых "второстепенных" узлов.
Если сделать это на этапе разработки проекта, можно заодно получить и экономию в результате отказа от "вредного" оборудования. А если удалить из системы "лишний" неисправный компонент, то его не придется ремонтировать! Но рано или поздно возникает необходимость, например, отключить ИБП или кондиционер от системы без прекращения ее функционирования. И если в системе бесперебойного питания отсутствуют обходные (байпасные) панели, при помощи которых можно эксплуатировать системы в обход данного отключенного устройства, то задача становится весьма нетривиальной. Другой вариант "отсечения лишнего" – желание поберечь ресурс и перевести резервное оборудования в "холодный" резерв вместо "горячего", допустим выключить вручную резервный кондиционер. Зимой у этого кондиционера забьется снегом вентилятор внешнего блока (блок холодный, снег не тает), и при отказе основного кондиционера резервный не запустится.
У нас есть план!
Если непрерывность сервисов для вас действительно важна, то для всех систем ЦОД должен быть четкий план действий на случай неисправности, учитывающий выход из строя любого компонента: активация резерва, вызов сервисного подрядчика или оперативный ремонт собственными силами с использованием запчастей, имеющихся у вас на складе.
Представим, что вы используете водяную систему охлаждения с двумя контурами. У вас есть сервисный контракт на холодильную машину (одного производителя) и сервисный контракт на сами кондиционеры (других производителей). Все ли хорошо? Ведь есть еще несколько компонентов в этой системе, без которых ничего не работает: два жидкостных контура (трубы, распределительная и запорная арматура), теплообменник между ними, насосные группы и прочие "мелочи", которые сервисными контрактами не прикрыты. А еще в контурах, кроме оборудования, есть рабочие жидкости, "срок жизни" которых хоть и велик, но не бесконечен. Даже антикоррозионные присадки, добавляемые в теплоноситель, "живут" в системе не более нескольких лет, после чего теплоноситель надо заменить.
Получается, нужен еще отдельный третий контракт на обслуживание этих "дополнительных" узлов. А еще лучше – единый комплексный договор, чтобы не возникало ситуаций, когда все сторонние подрядчики футболят вас друг к другу, перекладывая ответственность. другой пример: ИБП покрыт сервисным контрактом, а электрощиты и АКБ – нет. А ведь именно аккумуляторы повинны в большей части проблем с ИБП.
Правильная утилизация – это важно!
При проведении планового ТО заменяются расходные материалы – это прекрасно. Вопрос: куда деваются старые? Куда денется теплоноситель, удаленный из системы кондиционирования при ремонте или его замене? Что делать с отработавшими свой срок свинцово-кислотными аккумуляторами? Держать все остатки у себя на складе или захламлять коридоры – плохой путь. Если у вас нет возможности заниматься утилизацией самостоятельно, перекиньте это на подрядчика. Он все равно постоянно приходит к вам, чтобы поработать, пусть уходит не с пустыми руками.
А если за лето не успели израсходовать летнее дизельное топливо в ДЭС, но настала осень и пора заправлять зимнее? Вылить "неправильную" солярку просто так – нельзя, оставить в баке – тоже нельзя. Не стоит рассчитывать и на то, что летом на зимнем топливе двигатель будет хорошо работать: при такой экономии вам гарантирован быстрый износ топливного насоса из-за худших смазывающих свойств зимнего топлива при летних температурах. Хорошо, если в организации есть автопарк и гараж, с которыми можно делиться. Или если планом регулярных проверок ДЭС предусмотрено расходование хотя бы части топлива. В противном случае и в договор на поставку топлива придется включить услуги по сливу и утилизации.
Экономия должна быть экономной или?..
Один из тезисов, с которым регулярно сталкивается ИТ-отдел, звучит так: "мы на этом не зарабатываем, это внутренние нужды, надо экономить". Все так, но экономия должна быть разумной. Закономерным итогом неразумной экономии являются длительные простои внутренних ИТ-сервисов компании и внеплановые расходы. Причины – отказ оборудования, необходимость проведения дорогостоящего ремонта преждевременно износившегося оборудования, а также большое количество потраченных службой эксплуатации средств (например, среди ночи сбегать в магазин бытовой техники и купить пару мобильных кондиционеров) и нервов (которые вообще никто не учитывает).
Всегда есть соблазн привлечь к техническому обслуживанию не авторизованный сервис, а "тех, кто умеет это делать задешево". Например, компании, обслуживающей "бытовые" кондиционеры в офисных помещениях, могут доверить обслуживание прецизионных кондиционеров в ЦОД. Но у организаций, специализирующихся на кондиционерах, предназначенных для создания комфортных условий для людей, обычно нет ни запчастей к специализированной технике, ни сотрудников, обученных работам именно на таком типе оборудования. К примеру, один хороший и опытный специалист однажды не смог найти терморегулирующий вентиль в прецизионном кондиционере только потому, что тот выглядит не так, как этот специалист привык.
За спиной таких компаний не стоит производитель, который может в крайнем случае помочь отремонтировать оборудование силами своей сервисной службы. Нельзя забывать и о том, что при обслуживании силами не авторизованных производителем специалистов оборудование, как правило, лишается гарантии.
Иногда при бюджетном обслуживании и ремонте реальные действия подменяются на их имитацию, призванную создать иллюзию полного порядка. Например, кондиционер выдал ошибку "загрязнен воздушный фильтр". Можно очистить фильтр или поменять его на новый, а можно просто изменить настройки датчика, после чего тот перестанет сигнализировать о проблеме.
В результате кондиционер больше не "жалуется", деньги получены, все довольны. Только почему-то ускорился износ вентиляторов, работающих с повышенной нагрузкой, и температура охлаждающего серверы воздуха подросла. А еще можно пропылесосить одноразовый бумажный фильтр вместо его замены на новый. Первые несколько недель фильтр действительно будет работать хорошо, но никакой пылесос не может очистить фильтр на 100%. Поэтому до состояния "пора менять" этот очищенный фильтр дойдет не за плановые полгода, а гораздо быстрее.
Заменить разбитый подшипник в двигателе вентилятора вместо замены всего двигателя? В некоторых случаях (эксклюзивное оборудование, запчасти для которого нельзя купить) это действительно оправданно. Для серийно производящегося оборудования крупноузловая замена "родными" запчастями в итоге выгоднее.
Разделите эту ношу
Все упомянутые в статье случаи взяты из нашего опыта и действительно приключались с владельцами ЦОД в реальной жизни. Особенно подвержены риску небольшие корпоративные ЦОД, так как в коммерческих дата-центрах служба эксплуатации обычно достаточно большая, чтобы справляться с обслуживанием и ремонтами самостоятельно.
Если же вы несете ответственность за бесперебойное функционирование корпоративного ЦОД, используемого вашей компанией для поддержания критичных бизнес-процессов, то эта ноша может быть слишком тяжела. Попробуйте разделить ее с теми, кто имеет большой опыт эксплуатации и обслуживания инженерных систем ЦОД.
Редакция советует
В статье рассмотрены проблемы эксплуатации небольших корпоративных дата-центров и даны рекомендации по их решению или предотвращению.
Оборудование для ЦОД производит компания "Ниеншанц-Автоматика", которая имеет собственное производство, конструкторское бюро, тестовую лабораторию, сервис-центр – все это позволяет предоставлять клиентам качественную услугу. Большой опыт обеспечения пожарной безопасности в дата-центрах имеет компания "Грундфос".