Как нечаянно сломать ЦОД: 13 методов, опробованных на практике

Все знают, что грамотное и правильное техническое обслуживание любого оборудования – это важный аспект его эксплуатации. Применительно к ЦОДу это означает, что полноценный качественный сервис подарит месяцы и годы работы без сбоев и без затрат на внезапный дорогостоящий ремонт. Игнорирование же этого принципа неизбежно приведет к тому, что однажды для владельца ЦОД внезапно наступит «пятница тринадцатое». Ниже описано 13 реальных способов, как довести ЦОД до простоя, его клиента – до нервного срыва, а начальство – до белого каления.

Экономия должна быть разумной. Результатами «неразумной экономии» являются длительные простои ЦОДа при отказе оборудования, необходимость проведения дорогостоящего капитального ремонта оборудования, отказавшего по причине своего преждевременного износа, а также большое количество потраченных службой эксплуатации средств (например, посреди ночи сгонять в магазин бытовой техники и купить пару мобильных кондиционеров) и нервов (которые вообще никто не учитывает).

Способ 1. Гарантия – не панацея

Часто бывает так, что наличие стандартной гарантии принимается за обещание производителя решить любые проблемы с оборудованием. Следствие этого – тотальная экономия на техническом обслуживании в первые годы эксплуатации. Запомните, наличие гарантии не отменяет необходимость проведения регламентного технического обслуживания. В противном случае оборудование просто-напросто изнашивается в разы быстрее, чем рассчитывал производитель. Как закономерный итог – выход оборудования из строя вскоре после окончания гарантийного срока. Иногда такую поломку списывают на «заговор производителей» и «запланированное» ими старение систем. На самом деле все просто – надо вовремя обслуживать технику.

Как правило, в условиях оказания гарантии указано, что владелец ЦОДа должен проводить регламентное техобслуживание оборудования. Не обратив внимания на этот пункт, он рискует оказаться в ситуации, когда произошел, казалось бы, гарантийный случай, но гарантия уже не действует из-за того, что не было проведено техническое обслуживание, факт которого должен фиксироваться в специальных документах. Дополнительная проблема заключается в том, что, как правило, гарантийный ремонт осуществляется с минимальным приоритетом, так как сервисное подразделение производителя в первую очередь выполняет заявки по платным контрактам.

Способ 2. Сервисные контракты для «затыкания дыр»

Не редки случаи, когда владельцы ЦОД пытаются оформить расширенную гарантию или сервис уровня «все включено» уже после поломки оборудования. Иногда это может сработать при отказе ИТ-оборудования, например, коммутаторов или маршрутизаторов, – некоторые производители «идут навстречу».

Для оборудования инженерных систем производители обычно проводят предварительные тест-визиты, по результатам которых принимается решение о принятии оборудования на обслуживания. И в этом случае отказавшее оборудование сначала, еще до принятия на поддержку, придется отремонтировать за отдельные деньги. Кстати, сразу простой, но полезный совет: если вы оформляете подобный сервисный контракт – приглашайте инженеров на тест-визит как можно скорее, не откладывайте!

Способ 3. Дешево и сердито

Всегда есть соблазн привлечь к техническому обслуживанию не авторизованный сервис, а «тех, кто умеет это делать задешево». Например, маленькой фирме, обслуживающей «бытовые» кондиционеры в офисных помещениях, могут доверить обслуживание прецизионных кондиционеров в ЦОДе.

Надо задать себе вопрос, что произойдет в случае, если действия этих специалистов не принесут успеха. Например, фирма обслуживает и ремонтирует внутрирядный прецизионный кондиционер, а ему «все хуже и хуже» с каждым разом? Причин может быть много. У компаний, специализирующихся на кондиционерах, предназначенных для комфорта, обычно нет ни запчастей к специализированной технике, ни сотрудников, обученных к работам именно на таком типе оборудования. За такими фирмами не стоит большая стабильная компания-производитель, которая может в крайнем случае помочь отремонтировать оборудование или заменить его. Не стоит забывать и о том, что при обслуживании силами специалистов, не авторизованных производителем, оборудование, как правило, лишается гарантии.

Например, один хороший специалист не мог найти терморегулирующий вентиль в прецизионном аппарате только потому, что он выглядит не так, как этот специалист привык. Результат – неправильный ремонт.

Способ 4. Глаза не видят, сердце не болит

Иногда при бюджетном обслуживании и ремонте реальные действия подменяются на их имитацию, призванную создать иллюзию полного порядка. Например, кондиционер выдал ошибку «Загрязнен воздушный фильтр». Что нужно сделать? Конечно же, очистить фильтр или поменять на новый. А можно просто изменить настройки датчика загрязненности фильтра, после чего он перестанет сигнализировать о проблеме. В результате кондиционер больше «не жалуется», деньги получены, все довольны, только ускорился износ вентиляторов, работающих с повышенной нагрузкой, и температура охлаждающего серверы воздуха подросла…

Способ 5. Не так просто, как кажется

При «бюджетном» ремонте кондиционеров самая частая процедура – «дозаправка фреона». В общем случае – нельзя просто так взять и дозаправить хладагент в кондиционер. Если имела место утечка и она не найдена, эта процедура превращается в периодическую, и есть немалый шанс угробить оборудование.

Дело в том, что некоторые из используемых хладагентов являются многокомпонентными со сложным составом. И разные компоненты «улетучиваются» с разной скоростью, а простая дозаправка не восстанавливает правильного соотношения компонент. Поэтому при утечке фреона надо сначала просто дозаправить, чтобы с течеискателем пройти по трассе и найти место утечки, собрать остатки фреона в баллон (просто так выпускать в атмосферу его все-таки нельзя), потом разомкнуть контур, устранить утечку, заправить систему осушенным азотом, выдержать несколько часов с контролем потери давления, выпустить азот из системы, откачать вакуумным насосом остатки, выдержать некоторое время, убедиться, что вакуум держится. Только после всех этих процедур можно заправить систему рассчитанным заранее количеством фреона и масла.

Способ 6. Чем меньше звеньев в цепи, тем надежнее цепь

Сложные системы чаще ломаются. Поэтому возникает соблазн отказаться от некоторых «второстепенных» узлов. Заодно можно получить и экономию в результате отказа от «вредного» оборудования! Но рано или поздно возникает необходимость, например, отключить ИБП или кондиционер от системы без прекращения ее функционирования. Если при строительстве ЦОДа не предусмотрели обходные (байпасные) панели, при помощи которых можно эксплуатировать системы в обход отключенного устройства, то эта задача будет весьма нетривиальной.

Способ 7. Объем сервисных услуг всегда соответствует стоимости сервисного пакета

Вернемся к вопросам сервиса. Бывают различные «уровни» сервиса (SLA), предусматриваемые контрактами на техническое обслуживание. В одном пакете услуг предусмотрены только работы, в другом – «все включено». Стоимости пакетов с разным уровнем сервиса могут различаться в разы. Если вы сэкономили на уровне сервиса, и выбрали вариант без «бесплатных» запчастей, то вы должны быть твердо уверены, что в случае ремонта вам оперативно согласуют дополнительные (и, конечно же, совершенно неожиданные) выплаты и подпишут необходимые счета на солидные суммы. В противном случае, несколько дней нервотрепки (а то и пара недель простоя ЦОДа) вам практически гарантированы.

Способ 8. Правильная утилизация дизтоплива – это важно!

Не забудьте заключить договор не только на поставку топлива для ДГУ, но и на утилизацию невыработанного топлива при смене сезона! Вылить «неправильную» солярку просто так – нельзя, оставить в баке – тоже нельзя. Не стоит рассчитывать, что летом на «зимнем» топливе дизель будет хорошо работать, при такой «экономии» вам гарантирован быстрый износ топливного насоса из-за худших смазывающих свойств «зимнего» топлива при летних температурах).

Следующие примеры можно объединить под общим названием «недосмотрели» или «у семи нянек…»

Способ 9. Мелочь, а неприятно

Возвращаясь к сервису, хотелось бы упомянуть о его полноте. Представим, что в ЦОДе установлена классическая водяная система охлаждения с двумя контурами. Есть сервисный контракт на чиллер (одного производителя), сервисные контракты на «внутренние блоки» (других производителей) и, казалось бы, все хорошо. Но есть еще несколько важнейших компонентов в этой системе, о которых часто забывают: есть два жидкостных контура (трубы, распределительная и запорная арматура) и теплообменник между ними, насосные группы, и прочие «мелочи», которые данными сервисами не прикрыты, так как обычно контракт включает в себя только само оборудование. А еще в контурах, кроме оборудования, есть рабочие жидкости, «срок жизни» которых хоть и велик, но не бесконечен. Даже антикоррозионные присадки, добавляемые в воду, «живут» в системе не более 10 лет, после чего воду с присадками надо заменить. В общем, нужен еще отдельный третий контракт (лучше всего с тем интегратором, который устанавливал эту систему) на обслуживание «дополнительных» узлов. А еще лучше – чтобы был единый комплексный договор. Тогда не возникнет ситуация, когда все три стороны «футболят» клиента друг к другу, перекладывая ответственность.

Способ 10. Легче предотвратить

История из жизни: при проведении плановых работ в одном из ЦОДов заодно была проверена система гарантированного электропитания. Выяснилось, что по неизвестной причине, видимо, случайно ДГУ переведена в ручной режим и ее выход отключен. То есть в случае необходимости дизель не завелся бы, и питание на ЦОД не подал бы. Если бы проводились регулярные проверки, эту ситуацию удалось бы заметить раньше. Здесь же можно упомянуть и такие проблемы с ДГУ, как «разрядился стартерный аккумулятор», «радиатор забился листьями и двигатель перегрелся», и т. п.

Способ 11. Особый подход к работе батарей

Если имеется большой ИБП с немодульными батареями – особого внимания требует батарейный массив. Рекомендуется периодически проверять не только всю батарею «в сборе», но и каждый аккумулятор отдедльно.

В реальной жизни каждый аккумулятор имеет свои уникальные характеристики – один получше, другой похуже. Если в одном «плече» оказались аккумуляторы с характеристиками, сильно отличающимися друг от друга, то сначала это можно будет заметить только по небольшому уменьшению суммарной емкости всего массива. Со временем станет хуже: например, аккумуляторы с меньшей емкостью будут перезаряжаться, перегреваться, в итоге – внутреннее короткое замыкание превратит такой аккумулятор в перемычку. Следом перезаряжаться будут те батареи что были рядом с ним. Как закономерный итог – замена нескольких аккумуляторов (а то и всего «плеча») вместо своевременной замены одного «предателя».

В заключение несколько проблем «архитектурного» происхождения.

Способ 12. Семь раз отмерь, один раз отрежь

Перед тем как что-то заделать или закрепить наглухо и намертво, надо подумать о том, как это обслуживать потом, чинить, разбирать при необходимости. Например, случается, что заботливые хозяйственники «наводят красоту» и при этом надежно замуровывают коммуникации ЦОД под крепкой гранитной или мраморной «фасадной» плитой. Результат этого редко бывает предсказуем, но всегда – малоприятен. Особенно это относится к трассам для коммуникаций. Может быть, именно этой горсточки пыли, которую вы добыли из стены при прокладке нового кабеля, так не хватало ленточной библиотеке для окончательного выхода механики из строя?

Очередная «история из жизни»: старый-старый демонтированный ИБП невозможно вынести из помещения, где он жил и работал больше десяти лет, потому что недавно в здании был большой ремонт, и дверь поменяли на более узкую. Со стороны коридора все стало красиво, со стороны серверного помещения – не очень: старый батарейный шкаф пришлось пилить, и выносить по частям.

Способ 13. Ничто не вечно под луной

Надо помнить, что кроме заметных при осмотре оборудования «макропроцессов» также протекают и невидимые глазу «микропроцессы» абсолютно во всех материалах: жилах кабелей, изоляции кабелей, клеммах, и пр. Необходимо периодически проверять все клеммные соединения, убеждаться в том, что болтовые соединения в них не ослабли со временем, а места контактов не окислились. Для этого не обязательно лезть руками в электрощит – можно проверить его тепловизором – он покажет места, где нагреваются плохие контакты. Шины заземления следует проверять приборами и ручным инструментом (контролировать момент затяжки болтового соединения динамометрическим ключом) – тут тепловизор не поможет.

Все эти так называемые «способы», несмотря на некоторую комичность, взяты из практики и действительно приключались с владельцами ЦОДов в реальной жизни. Особенно подвержены риску небольшие корпоративные ЦОДы, так как в коммерческих дата-центрах служба эксплуатации обычно достаточно большая, чтобы справляться с обслуживанием и ремонтами самостоятельно.

Если же ответственность за бесперебойное функционирование корпоративного ЦОД несет один сотрудник компании, эта ноша может быть слишком тяжела. Возможно, стоит попробовать разделить ее с теми, кто имеет большой опыт эксплуатации и обслуживания инженерных систем ЦОД. Например, пригласить хорошего интегратора.

Олег Сорокин, эксперт по направлению ЦОД компании ICL-КПО ВС

Источник: Www. cnews. ru