Systemy monitoringu w centrach przetwarzania danych

Rozwój systemów monitoringu infrastruktury IT to przede wszystkim zwiększenie roli mechanizmów analizy i automatyzacji typowych procesów, a także wykorzystanie technologii IoT i uczenia maszynowego do zwiększenia niezawodności i efektywności działania infrastruktury fizycznej w centrach danych.

Systemy do monitorowania działania ośrodków przetwarzania danych – serwerowni lub centrów danych – są stosowane od początków ich powstania i stanowią standardowy element każdej infrastruktury IT. W dobie cyfryzacji i wzrostu znaczenia niezawodnego działania systemów IT dla prowadzenia biznesu rosną również wymagania dotyczące efektywnego funkcjonowania rozwiązań służących do monitoringu infrastruktury. Jak wiadomo, liczba awarii systemów informatycznych może zostać ograniczona przez zastosowanie efektywnie działających systemów do bieżącego monitoringu parametrów pracy urządzeń działających w serwerowni.

Monitoring fizycznej infrastruktury serwerowni

Struktura systemów informatycznych oparta jest na serwerach, pamięciach masowych i urządzeniach sieciowych. Niezawodność działania systemu ITw znacznej mierze zależy od niezawodnego funkcjonowania tej fizycznej, podstawowej warstwy infrastruktury. Nieprzewidziana awaria może spowodować przerwanie pracy systemu informatycznego i wynikające z tego poważne straty finansowe.

Zobacz również:

Z tego względu serwery i inne urządzenia zazwyczaj umieszcza się w specjalnych pomieszczeniach w centrach danych – w serwerowniach,które mają zapewnić odpowiednie warunki dla ich niezawodnej pracy. Serwerownie takie są wyposażane m.in. w systemy do chłodzenia, wentylacji, zasilania i zasilania awaryjnego, kontroli dostępu itp. Wszystkie systemy z zasady zawierają czujniki dostarczające bieżących informacji o parametrach środowiska i danych dotyczących prawidłowej lub nieprawidłowej pracy poszczególnych elementów (np. wentylatorów). Informacje te są przekazywane do systemu monitoringu, który reaguje na pojawiające się nieprawidłowości, generując odpowiednie alarmy.

To, gdzie i jakie zestawy czujników są w systemie wykorzystywane, zależy od wielkości i architektury centrum danych. Na przykład w klasycznych serwerowniach chłodzone były całe pomieszczenia, a do pomiaru temperatury wystarczał jeden czujnik lub kilka takich urządzeń. Obecnie wzrost mocy przetwarzania serwerów i gęstości ich upakowania powoduje, że często stosuje bardziej zaawansowane systemy lokalnego chłodzenia elementów. To sprawia, że liczba czujników rośnie, bo muszą one być instalowane we wszystkich newralgicznych punktach systemu.

Podstawowe parametry kontrolowane przez systemy monitoringu są od lat takie same; związane są z poborem mocy, temperaturą, wilgotnością, pracą systemów chłodzenia, a także kontrolą dostępu. Nie zmienia się też cel, czyli zapobieganie zagrożeniom, które mogą zakłócić prawidłowe i niezawodne działanie infrastruktury fizycznej centrum danych.

Wraz z miniaturyzacją elementów, wzrostem mocy przetwarzania oraz zwiększeniem gęstości upakowania serwerów, pamięci masowych w szafach stelażowych lub innych obudowach kwestie efektywnego monitorowania parametrów związanych z poborem mocy, temperaturą, wilgotnością, poziomem chłodzenia itp. nabierają jeszcze większego niż kiedyś znaczenia.

Od DCIM do IoT

Klasyczne systemy zawsze korzystały ze zintegrowanych lub z zewnętrznych czujników do kontroli temperatury, wilgotności, poboru mocy, nadzoru wideo itd. Początkowo były to rozwiązania punktowe, które często wymagały skomplikowanej integracji z narzędziami służącymi do zarządzania infrastrukturą centrum danych. Oprócz tego, gdy dostępne są dane dotyczące parametrów i działania systemu, trzeba je wykorzystać. Pojedyncze kategorie parametrów pozwalają na wykrywanie tylko specyficznych zdarzeń, takich jak: przegrzanie serwera, wypływ wody (zalanie fragmentu serwerowni), awaria wentylatora lub przerwa w zasilaniu i umożliwiają reakcję na podobne zagrożenia. Tego typu podstawowe parametry były mierzone od dziesiątków lat, a podstawową funkcją systemów monitoringu było generowanie pojedynczych alarmów dla administratorów systemu, którzy musieli analizować, jakie są przyczyny awarii i jakie działania serwisowe należy podjąć.

Wraz ze wzrostem wielkości ośrodków przetwarzania danych problem monitorowania i zarządzania infrastrukturą stawał się coraz poważniejszy. Stąd też 10–15 lat temu popularność zaczęło zdobywać oprogramowanie określane jako DCIM (Data Center Infrastructure Management) – narzędzia do kompleksowego zbierania informacji dotyczących bieżącego funkcjonowania centrum danych. Oferowane przez wielu producentów zestawy narzędzi DCIM pozwalają na monitorowanie i modelowanie wszystkich elementów infrastruktury, dostarczając informacje, które ułatwiają planowanie rozbudowy systemu, i umożliwiają zapobieganie sytuacjom awaryjnym. Działanie serwerów, pamięci masowej, urządzeń i połączeń sieciowych, a także ich zużycie energii są kontrolowane, a dostarczane informacje przetwarzane przez oprogramowanie zarządzające, które generuje odpowiednie alarmy i przekazuje kompleksowe raporty prezentujące informacje o stanie infrastruktury.

Obecnie pojawił się kolejny etap rozwoju systemów monitoringu. Do zarządzania infrastrukturą centrów danych zaczyna być wykorzystywana technologia IoT (internet rzeczy). Co zmienia IoT w porównaniu do znanych od lat narzędzi DCIM? Przede wszystkim narzędzia DCIM były zazwyczaj opracowywane pod kątem zapewnienia automatyzacji niektórych działań, generowania alarmów i raportów, a nie dostarczania danych do systemów analitycznych, które są kluczowym elementem systemów IoT.

IoT w centrum danych

Popularyzacja technologii i zastosowań internetu rzeczy ma podwójny wpływ na centra danych i serwerownie. Z jednej strony IoT wymaga modernizacji ich architektury i dopasowania do wymagań, jakie stawia internet rzeczy. Ale z drugiej strony technologie IoT znajdują zastosowania w systemach do monitorowania i zarządzania infrastrukturą centrów danych. Oprócz klasycznych funkcji związanych z monitorowaniem parametrów środowiskowych, temeperatury, wilgotności, zasilania, przepływu danych, wykorzystania pamięci masowej, kontroli dostępu itd. systemy IoT mogą zostać wykorzystane do inteligentnego sterowania działaniem elementów centrum danych i zwiększenia jego efektywności.

W przypadku IoT ulepszenia w zakresie samych fizycznych czujników, ich miniaturyzacja, wzrost niezawodności i możliwości komunikacji nie są obecnie najważniejsze. Kluczową rolę odgrywa oprogramowanie, które pozwala nie tylko na zbieranie, przechowywanie danych i generowanie alarmów, ale również na zaawansowaną analizę oraz zautomatyzowaną reakcję na występujące zdarzenia. Wykorzystanie technologii IoT w centrach danych i serwerowniach umożliwia zwiększenie ich efektywności (np. zmniejszenie zużycia energii), automatyzację niektórych typowych działań (zmniejszenie zaangażowania pracowników w wykonywanie standardowych czynności) lub przewidywanie potencjalnych awarii, zanim wystąpią (analityka i uczenie maszynowe), a w efekcie zwiększenie niezawodności oraz zmniejszenie kosztów utrzymania infrastruktury.

Wykorzystanie technologii IoT w centrach danych i serwerowniach umożliwia zwiększenie ich efektywności, automatyzację niektórych typowych działań i przewidywanie potencjalnych awarii, a w efekcie zwiększenie niezawodności oraz zmniejszenie kosztów utrzymania infrastruktury.

Rozwój technologii IoT doprowadził do pojawienia się koncepcji autonomicznych centrów danych, w których większość zadań związanych z konfiguracją serwerów, pamięci masowych i urządzeń sieciowych jest realizowana programowo. Działanie systemu jest na bieżąco optymalizowane i dopasowywane do bieżącej sytuacji. Koncepcja taka jest związana z rozwojem różnego rodzaju technologii programowego sterowania sieciami (SDN), pamięciami masowymi (SDS) i infrastrukturą (IoT). Wdrażanie takich rozwiązań nie jest jednak proste. Wymaga m.in. korelacji danych pochodzących z różnych źródeł, zarówno czujników kontrolujących parametry fizyczne, jak i sensorów mierzących wydajność aplikacji, bieżące obciążenia oraz przewidywane ich zmiany.

Jednym z ważnych problemów jest brak standaryzacji. Na rynku dostępnych jest wiele modeli mniej lub bardziej inteligentnych czujników, ale wykorzystują one różne, czasami firmowe formaty danych i przemysłowe protokoły do transmisji danych, takie jak: najpopularniejsze Modbus, BACNet, SNMP, WMI, ale też wiele innych.

Jeśli system do monitorowania infrastruktury składa się z elementów i oprogramowania pochodzącego od jednego dostawcy to zwykle nie ma problemów. Ale jeżeli z jakichś powodów jest to system heterogeniczny, to integracja różnych elementów może być trudna. Dzieje się tak dlatego, że np. jeden moduł do zarządzania zasilaniem może dostarczać informacji w formacie OUTPUT_CUR (liczba całkowita prezentująca liczbę amperów pobieranego prądu), a drugi DCRAIL1 (to samo, ale w formacie liczby zmiennoprzecinkowej, prezentującej wielkość natężenia prądu z dokładnością do ułamkia ampera). A dane dostarczane do oprogramowania zarządzającego, analitycznego i repozytorium danych powinny mieć ten sam format oraz tę samą nazwę.

Brak standaryzacji powoduje zwiększenie kosztów wdrożenia systemów monitoringu, zwłaszcza wykorzystania oprogramowania analitycznego lub mechanizmów AI (uczenie maszynowe), co w efekcie może hamować popularyzację zaawansowanych systemów monitoringu centrum danych. Szybkie zmiany otoczenia rynkowego powodują, że planowanie infrastruktury IT staje się zadaniem dynamicznym, wymagającym reakcji na zmiany w biznesie. Trudno jest przewidzieć, jak będzie wyglądała sytuacja za dwa czy trzy lata, a cóż dopiero za lat 10 lub 15.

Ale inwestycje w budowę centrów przetwarzania danych lub serwerowni są planowane na najbliższe przynajmniej 10 lub więcej lat i w takim okresie powinny spełniać stawiane im wymagania. Ich wyposażenie jest oczywiściej znacznie częściej modyfikowane – wymieniane są serwery, pamięci masowe lub urządzenia sieciowe. Nie ulega wątpliwości, że dobrze zaplanowany i wdrożony system monitoringu infrastruktury pozwala na ograniczenie kosztów utrzymania centrum danych i niezbędnych modernizacji jego infrastruktury fizycznej.


TOP 200