In English

Управление ЦОД: стратегический узел

01.12.2011, Жилкина Наталья
Издание: CIO
При создании дата-центров вопросам управления зачастую уделяется второстепенное внимание. Тем не менее аналитики отмечают тренд, характерный сегодня для этого рынка: число проектов по автоматизации управления ЦОД растет.

Стимулами к внедрению подобных систем становятся изменения в инфраструктуре дата-центров, связанные с виртуализацией, высокой плотностью размещения оборудования, переходом к «облачным» вычислениям и рядом других факторов. Внедрение автоматизированных средств управления дата-центрами имеет под собой конкретные экономические и технологические мотивы. Качественный инструментарий управления не только повышает уровень доступности инфраструктуры ЦОД, но и позволяет достичь значительного экономического эффекта за счет снижения затрат на электроэнергию и сокращения времени на развертывание сервисов, которое специалисты могут потратить на решение более важных задач.

Расходы на дата-центр включают не только инвестиции в приобретение серверов, но и затраты на их администрирование. Аналитики предсказывают, что в течение ближайших двух-трех лет расходы на администрирование приобретенных серверов в семь раз превысят средства собственно на их приобретение. Поэтому сегмент администрирования является наиболее приоритетным с точки зрения оптимизации затрат на дата-центры.

По данным Gartner, проекты по внедрению средств и процессов управления в дата-центрах будут доминировать в центрах обработки данных на протяжении ближайших лет: их бюджет вырастет от 1 % в 2010 году до 60% в 2014-м. По словам Дэвида Капуччи, управляющего вице-президента и руководителя отдела исследования инфраструктур компании Gartner (документ «DCIM: Going Beyond IT Problems»), для получения максимальных преимуществ руководителям, ответственным за инфраструктуру дата-центров, следует начать процесс оценки средств управления уже в 2010 и 2011 годах.

Режим управления


В своем докладе на конференции Datacenter Dynamics Андрей Ивашов, инженер компании Emerson, рассказал о типичных проблемах управления современным дата-центром:

- Если воспользоваться моделью зрелости для оценки состояния дата-центра, то самое хорошее состояние - это сервис-ориентированный ЦОД, самое плохое - центр на ручном управлении. Во втором случае на объекте отсутствует какая-либо документация. Как правило, в таком дата-центре ИТ-оборудование заменяют по возможности, и зачастую оно работает до тех пор, пока вообще способно работать. Время простоя такого центра также может быть абсолютно любым и, по сути, не влияет на деятельность компании.

Если бизнесу небезразлична длительность простоя, применяют более совершенную, реактивную систему. В случае аварии в таком ЦОД быстро находят замену оборудованию, исправляют ситуацию. Как правило, для подобных площадок ведется какая-то документация, регламентирована процедура поиска неисправностей (troubleshooting). Однако в целом эксплуатация такого дата-центра держится на опыте ИТ-специалистов, которые там работают. И если эти люди уйдут, добавляет Андрей Ивашов, то и ЦОД, можно сказать, придется отстраивать заново.

«Зачастую при создании центра обработки данных мы сталкиваемся с тем, что заказчик не доверяет автоматизированной системе управления (АСДУ) и пытается привнести в нее «ручной режим», - рассказывает Евгения Юшкова, заместитель директора департамента инженерных систем «АМТ-ГРУП». - Чтобы свести к минимуму риски внедрения АСДУ, в первую очередь необходимо разработать регламент ее работы, а во вторую – провести запуск и опытную эксплуатацию всего инженерного комплекса длительностью не менее месяца».

Модель управления ЦОД, к которой сегодня стремятся специалисты в области эксплуатации дата-центров, - проактивная, предполагающая работу в режиме реального времени. Это модель, позволяющая предвидеть проблемы, прогнозировать влияние изменений и не только находить причины ошибок, о которых сообщает troubleshooting, но и устанавливать обходные пути для восстановления работоспособности сервисов. Это единая система, способная, например, предсказать, как определенная зона дата-центра будет реагировать на отключение питания фидера или ИБП.

В такой сервис-ориентированной модели объект полностью документирован, регламенты замены оборудования четко прописаны, для эксплуатационных служб формируются различные виды и формы отчетов. Изначально система имеет ряд фиксированных форматов отчетов по параметрам инженерных систем, по авариям и тревогам, времени возникновения, времени квитирования и действиям персонала по устранению аварий. Встроенный конструктор позволяет оперативно настроить требуемый вид отчетов и проводить анализ аварийных ситуаций за какой угодно период. «Тем самым система управления предоставляет базис для судебных разбирательств - например, между владельцем ЦОД и поставщиком электроэнергии», - отмечает руководитель отдела промышленной автоматизации компании АйТи Валерий Волобуев.

Известны случаи, когда система диспетчеризации протоколирует нештатные ситуации и на основе этой информации выявляются виноватые в инциденте. «Но в нашей практике подобных сценариев не было, - отмечает директор департамента инженерных систем компании «Астерос» Алексей Карпов.— При подписании контрактов мы заключаем с заказчиком SLA. В течение определенного срока в рамках наших контрактов действуют гарантийные обязательства. Параметры качества сервисов в рамках SLA определяются заказчиком».

Сергей Сапронов, главный инженер отдела систем инженерного обеспечения интегратора «Техносерв», отмечает, что в качестве доказательной базы можно апеллировать только к данным, полученным от сертифицированного измерительного оборудования. «Измерительное оборудование должно эксплуатироваться в допустимых режимах и характеристиках внешней среды, а также проходить регулярную поверку, - подчеркивает он. - В случае незначительных нарушений и при наличии «джентльменского» соглашения между участниками весьма велика вероятность урегулирования убытков на основе показаний любых систем, позволяющих оценить эти убытки более или менее объективно».

— По текущим оценкам, в мире и в России сервис-ориентированных ЦОД всего лишь 5%, - говорит Андрей Ивашов. - В остальных центрах - а почти половина из них работает по реактивной схеме - отсутствуют документирование и возможность анализа причин вывода из строя каких-то приложений. В подобных дата-центрах обычно реализована сложная процедура поиска неисправностей (troubleshooting), и весь процесс эксплуатации держится на квалификации специалистов, их опыте и знании конкретного ЦОД. Если в таком дата-центре что-то серьезно меняется или специалисты уходят, то площадка начинает медленно угасать. Для компании, которая ценит свои бизнес-процессы и для которой очень важна минимизация времени простоя, имеет смысл стремиться к тому, чтобы сделать ЦОД сервис-ориентированным. Такой центр стоит совершенно других денег, однако он начинает приобретать и значительную ценность.

Пестрый ландшафт


Один из наиболее распространенных подходов к управлению дата-центром заключается в разделении контуров управления - прикладными системами, ИТ- и инженерной инфраструктурой. Эти контуры имеют даже разные команды операторов. «Владельцы дата-центров вкладывают деньги в инфраструктуру, организуют обязательный мониторинг серверов, а вот инженерной инфраструктуре не уделяют должного внимания, - комментирует Валерий Волобуев. — В лучшем случае ставят какие-то разрозненные системы - пульты со светодиодами от кондиционеров, различные ИПБ-выносы».

На данный момент очень мало компаний, особенно в России, занимается оптимизацией и управлением ЦОД. Многие вкладывают в инфраструктуру, покупая комплексные решения - инженерные, серверные, однако редко кто создает единую платформу управления и формирует единую команду управления.

Основная проблема управления в дата-центрах - это отсутствие связки между инженерными системами, считает Алексей Карпов: «Разнообразие ландшафта оборудования и систем разных вендоров затрудняет их согласованную работу. И выход из строя одного оборудования приводит к отказу в работе другого и возможному нарушению работоспособности центра в целом. Чтобы комплексно управлять всеми подсистемами, нужна единая система диспетчеризации».

Многие производители оборудования для центров обработки данных, а также ряд разработчиков программного обеспечения предлагают специализированные инструменты управления различными компонентами инфраструктуры ЦОД. В состав таких систем входят инструменты документирования и управления ресурсами, представления планов помещений ЦОД на всех его уровнях - от отдельно стоящего здания до расположения стоек и ИТ-оборудования, вплоть до подробной информации о конфигурации оборудования. К ним же относятся системы управления и мониторинга электропитанием. При всех плюсах такого программного инструментария он обладает серьезным недостатком: подобный конгломерат средств управления, как правило, не является единой платформой.

«В большинстве компаний картина в отношении инструментов управления дата-центром удручающая, - говорит Андрей Ивашов. -Часто для этих целей используются разрозненные таблицы и схемы, в которых присутствует неполная информация. Анализировать и строить прогнозы на ее основе очень сложно».

- На этапе проектирования мы проводим анализ каждой подсистемы, входящей в комплекс, — рассказывает Валерий Волобуев. - Зачастую они имеют разную степень автоматизации, разные возможности по подключению системы мониторинга. Нередко даже ведущие банки, особенно их региональные подразделения, очень сильно экономят на инженерной инфраструктуре. Вплоть до того, что в дата-центрах можно встретить обычные бытовые кондиционеры, не рассчитанные на круглосуточную работу. Для такого оборудования возможно лишь косвенное наблюдение, но, как правило, не мониторинг.

Обычно каждая инженерная система имеет законченную самодостаточную архитектуру и не «общается» с другими системами. Поэтому, по словам Алексея Карпова, свести оперативную информацию о состоянии инфраструктуры в единый центр управления штатными средствами подсистем невозможно.

Специалист отмечает, что для управления дата-центром, особенно крупным, нужна единая система для решения проблем вычислительной инфраструктуры и инженерных систем. «Соединить в цельную логическую структуру все инженерные подсистемы ЦОД позволяет автоматизированная система диспетчерского управления, - поясняет Карпов. - Это реализуется путем установки дополнительных контроллеров, конвертеров сигналов и системы сбора данных (SCADA - Supervisory Control And Data Acquisition). В итоге формируется единая среда мониторинга и управления, и события, происходящие в различных подсистемах, согласовываются».

SCADA отслеживает возникновение инцидента, протоколирует его. Информация, которая поступает с удаленных объектов, отображается на мнемосхемах, записывается в архив и используется для автоматизированного управления системами. С помощью встроенных средств визуализации данные об инциденте выводятся на панель диспетчерского пульта оператора.

Единая и независимая система диспетчеризации хранит все исторические данные на протяжении длительного периода времени. В ходе работы системы все изменения параметров фиксируются в БД с привязкой ко времени возникновения.

«Системы диспетчеризации в новых центрах обработки данных начали активно устанавливать, но не всегда эти системы охватывают все инженерные компоненты, а если и охватывают, то исключительно в режиме уведомления о неисправностях, - говорит ведущий консультант HP в России Григорий Юдин. — Только самые крупные проекты в России имеют интегрированную систему диспетчеризации с элементами алгоритмов управления».

Наибольший интерес для крупных заказчиков сегодня представляют комплексные решения, которые учитывают влияние на ЦОД современных процессов, таких как виртуализация, «облачные» вычисления, рост затрат на электричество, сложность получения бизнес-ресурсов и внезапно возникающие бизнес-задачи, которые требуют немедленного решения, запуска тестов.

Внедрение промышленных систем диспетчеризации - это уже магистральное направление при оснащении дата-центров, считает Андрей Карпов. По его словам, подобные системы обладают усиленными механизмами контроля, резервированными каналами передачи данных, могут работать в сложных экстремальных условиях: при повышенной температуре, влажности и т. п. Для многокомпонентного дата-центра использование таких систем в режиме реального времени позволяет значительно ускорить передачу информации о наступившем событии серверу. А значит, сократить время оперативного реагирования на инцидент.

Вместо предположений - пусть даже обоснованных - о влиянии изменений на инфраструктуру нужна возможность прогнозировать последствия еще ДО внесения изменений. Вместо отслеживания изменений за какой-то период необходимо оперативно использовать информацию, поступающую в реальном времени. Только в этом случае можно добиться улучшения доступности информационных ресурсов, повышения эффективности, увеличения коэффициента использования мощностей. Эксперты единодушны в том, что развитие систем управления дата-центром будет идти в направлении, связанном со скоростью реагирования в режиме реального времени.

Между тем, как считает главный конструктор Stack Labs Максим Ам-зараков, внедрение в России промышленных систем диспетчеризации дата-центра, работающих в режиме реального времени, на данном этапе скорее исключение, чем правило. «Но на технологических площадках, которые в скором времени пополнят сеть Stack Data Network, будет реализован именно такой тип системы диспетчеризации, - поясняет Максим. - Она будет консолидировать поступающую информацию и «выдавать системам указания» о порядке необходимых операций. Скажем, при изменении характера нагрузки на стойки в серверных залах система кондиционирования автоматически адаптирует режим воздухообмена в дата-центре».

Комплексные системы диспетчеризации, используемые для автоматизированного управления инфраструктурой дата-центров, представлены продуктами Siemens Building Technologies, Schnieder Electric, Janitza Electronics, Beckhoff, SCADA InduSoft и ряда других разработчиков. Присутствующие на рынке АСДУ имеют возможность интеграции с комплексными системами управления ИТ-инфраструктурой — например, IBM Tivoli или HP OpenView. Интерес для заказчиков представляют также изготовленные на заказ автоматизированные системы управления, в которых используются промышленные логически программируемые контроллеры, промышленные датчики и промышленные СКАДА-системы.

- Применение промышленных решений позволяет обеспечить высокий уровень надежности создаваемой системы и наиболее полно удовлетворить пожелания заказчика к функционалу системы, — говорит Алексей Шапошников, начальник отдела инженерных систем компании «Открытые Технологии». - Наша компания в большинстве случаев создает системы диспетчеризации именно на базе промышленных протоколов, контрольного оборудования и специализированного ПО СКАДА-систем.

На этот рынок стремятся и разработчики компонентов инженерной инфраструктуры дата-центров. Компания Emerson Network анонсировала выход в начале 2012 года автоматизированной системы управления ЦОД нового поколения под названием Trellis. Некоторые ее модули уже готовы к использованию. Система будет включать в себя такие компоненты, как сбор данных и планирование, мониторинг и доступ, анализ и диагностика проблем, а также подсистему автоматизации с выдачей рекомендаций. «Это будет истинно система реального времени, наиболее полное решение по автоматизации управления инфраструктурой дата-центров, с поддержкой визуализации в режиме 3D», — говорит Андрей Ивашов.

Точки оптимизации


Общее энергопотребление дата-центра находится в прямой зависимости от комплекса внешних и внутренних факторов: от погоды на улице, сезонных особенностей региона, всплесков и спадов нагрузки на вычислительные и телекоммуникационные системы, размещенные в центре. «При правильной организации систем контроля и диспетчеризации в ЦОД в отношении энергоэффективности появляется возможность накапливать статистику и анализировать ее для прогнозирования работы инженерных систем», - говорит Максим Амзараков.

Системы управления нового поколения способны собирать данные по энергопотреблению как с самих серверов, процессоров, так и с каждой стойки, со специальных распределителей питания, которые контролируют потребление от каждой розетки.

Если функционал системы управления позволяет снимать статистику по потреблению основных ресурсов и представлять ее в удобном для восприятия виде, она заметно облегчает решение вопросов по оптимизации расходов. Полезен также инструментарий, позволяющий детально отслеживать все элементы инфраструктуры (вплоть до количества юнитов в стойке, ее веса, запаса сетевых соединений), а также контролировать и документировать изменения на протяжении какого-то промежутка времени, строить графики.

В отношении функционала важна поддержка многопользовательской среды, возможность просмотра через веб-браузер планов объектов, расположения стоек, определения запаса по тепловыделению, энергопотреблению по зонам.

Системы управления совершенствуются в направлении объемных изображений, которые можно повернуть, посмотреть зоны для размещения серверов, переместить какие-то элементы, посмотреть соединение и так далее. Такая система дает полное представление о конфликтах и степени соответствия проекта доступным ресурсам центра.

Хорошо, если в системе присутствуют инструменты, позволяющие рассчитывать затраты на ЦОД. Такие средства дают возможность определить самую затратную с энергетической точки зрения зону. «Эти зоны должны привлекать наибольшее внимание, потому что именно на них можно потренироваться в оптимизации и добиться реального эффекта по снижению затрат», - советует Андрей Ивашов.

За счет хорошего анализа и качества энергопотребления во всем дата-центре можно найти зоны, которые потребляют немного энергии, но работают вхолостую. Или серверы, которые потребляют энергию, но на них работают неэффективные приложения.

Можно найти периоды, когда в дата-центре наступают типичные спады в потреблении, и назначить проведение каких-то работ на эти временные промежутки, причем весь процесс автоматизировать. Тем самым в течение долгого времени администраторы могут выровнять энергопотребление до относительно плавного графика. «Анализ всплесков потребления в дата-центре, - комментирует Андрей Ивашов, — позволяет держать запас мощности не в 30-40%, а, к примеру, в 10-15%. А лишние проценты выделяемой мощности можно просто пустить в продажу». Это дает большую экономию бюджета и позволяет предсказывать поведение оборудования.

Автоматизированная система управления дата-центром не только дает возможность лучше прогнозировать необходимые подразделению ресурсы и создавать отчеты для руководства, но и представляет веские аргументы для обоснования возможности внедрить новые проекты.

- Электроэнергия в России довольно дешевая, а решения, позволяющие повысить энергоэффективность, - дорогие, - отмечает директор центра эксплуатации ЦОД IBS DataFort Николай Паршин. - Сегодня решать вопрос оптимизации затрат на содержание инженерных и ИТ-систем не стимулированы ни владельцы дата-центров, ни пользователи. Только при увеличении затрат на эксплуатацию ЦОД и существенном удорожании и дефиците электроэнергии вопрос оптимизации будет актуальным. Но это время уже не за горами. В совокупности так или иначе придется экономить - и в первую очередь на инженерных системах. Стоит также отметить, что ИТ-производители выпускают все более энергоемкое оборудование, требующее больше электроэнергии.

Подбор персонала


Созданию системы диспетчеризации неизбежно сопутствует вопрос: какие специалисты будут с ней работать?

«Большинство отказов инженерных систем происходит по вине человека, - констатирует Евгения Юшкова. - В состав службы эксплуатации ЦОД должны входить высококлассные специалисты в разных областях, таких как электрика, кондиционирование».

Автоматизированная система диспетчеризации становится главным «помощником» для службы эксплуатации, позволяя увеличить надежность системы за счет уменьшения влияния человеческого фактора. Помимо этого, АСДУ повышает персональную ответственность диспетчера за результат, мотивируя на качественное выполнение работы.

По-настоящему талантливых специалистов всегда не хватает, говорит Алексей Шапошников. Но для работы в центре диспетчеризации персоналу достаточно обладать базовыми знаниями по всем инженерным системам ЦОД для обеспечения возможности своевременного принятия адекватных мер в случае возникновения аварийных событий, отказов оборудования и других происшествий и минимизации ущерба.

Большинство российских заказчиков не привыкли заниматься управлением дата-центров, считает Григорий Юдин: «Представители такой распространенной за рубежом профессии, как менеджеры ЦОД, в России почти не встречаются - и уж совсем редко проходят специальное обучение. Сейчас, в погоне за эффективностью, заказчикам придется осваивать процессы управления инфраструктурными системами ЦОД, разрабатывать специфические именно для них алгоритмы управления».

На Западе управление дата-центром часто отдают на аутсорсинг. В собственном штате обычно держат одного сотрудника, который получает детализированную информацию на пульт персонального оповещения. Как только возникает какая-то проблема, вызов автоматически адресуется обслуживающей эту подсистему компании. В России пока таких схем нет (зато есть универсальные электрики, сантехники, привлекаются фрилансеры). В крупных организациях создаются соответствующие службы.

По словам Сергея Сапронова, управление инженерной инфраструктурой всегда отделяется от управления ИТ-инфраструктурой: это разные задачи, каждая из которых решается своим специалистом. Однако объединение в рамках центра диспетчеризации специалистов, управляющих работой разных систем, может повысить эффективность и надежность функционирования ЦОД.

- К подбору персонала для работы в диспетчерском центре необходимо относиться очень внимательно, - говорит Сергей. - Кроме высокого профессионализма, диспетчер должен обладать достаточным уровнем коммуникабельности, чтобы уметь работать в команде. Сегодня подбор персонала для работы в ЦОД - проблема. Особенно это проявляется в регионах, которые становятся все более привлекательными для строительства дата-центров.

Новые стандарты


Валерий Волобуев, руководитель отдела промышленной автоматизации компании АйТи

В области энергоэффективности важным событием стало принятие нового международного стандарта IEC 50001 под названием «Системный аналитический менеджмент». В России энергоменеджмент сводился к аудиторской проверке потребления энергоресурсов; этим занимались кулуарные компании, которые определяли «условные» тонны топлива на производство единицы изделия. Условная граница рассчитывалась для определенного типа зданий по ГОСТам, СНИПам или другим нормативам. Закон 1996 года предписывал, чтобы организации в обязательном порядке проходили ежегодную энергоаудиторскую проверку на предмет соответствия этой «условной» границе. На практике, конечно же, такие аудиты проводились формально. Но в конце 2009 года — с принятием нового закона об энергоэффективности, а также ФЗ 261 — многое изменилось.

Новый ФЗ добавляет классы энергоэффективности зданий и определяет взаимодействие потребителей с энергосервисными компаниями в рамках контрактов. Эти компании ведут детализацию потребления конкретного здания, каждой инженерной системы. Для этой цели ставятся датчики, приборы технического учета, причем не только электроэнергии, но и тепла, воды и т. д. — то есть процесс идет снизу вверх. Закон предусматривает, что госучреждения обязаны ежегодно проходить энергоаудит и экономить 3% энергии. Помимо этого, они должны иметь в штате энергоменеджеров. В крупных российских корпорациях, кстати, такие штатные должности уже есть.

Центральный федеральный округ