Filary niezawodnego data center

Systemy zasilania i chłodzenia stanowią fundament infrastruktury fizycznej przedsiębiorstwa - zapewniają możliwość prawidłowego funkcjonowania systemu teleinformatycznego. Ich niezawodne działanie to klucz do zachowania ciągłości operacyjnej firmy.

Urządzenia wchodzące w skład systemów zasilania i chłodzenia wraz z czujnikami i systemami sterowania mają za zadanie utrzymywać optymalne warunki zasilania oraz parametry środowiskowe (wilgotność, temperaturę) dla wszystkich urządzeń pracujących w serwerowni. Dla centrum przetwarzania danych jednym z najważniejszych parametrów jest niezawodność, jednak gdy dojdzie już do awarii, najważniejsze staje się jak najszybsze przywrócenie dostępności systemu teleinformatycznego i obsługi procesu biznesowego. Wszystkie urządzenia, w tym oczywiście układy zasilania i chłodzenia, nie są wolne od możliwości wystąpienia awarii, dlatego w celu zwiększenia ich niezawodności, stosuje się układowe rozwiązania nadmiarowe.

Dostępność, niezawodność, parametry MTBF, MTBR

Dostępność zgodnie z definicją IEEE (Institute of Electrical and Electronics Engineers) określa się jako gotowość systemu lub elementu do zrealizowania postawionego przed nim zadania. Poziom dostępności systemu zależy głównie od jego odporności na awarie oraz średniego czasu naprawy. Zazwyczaj dostępność jest określana jako pewna wartość dotycząca danego urządzenia (systemu) lub też jako wartość procentowa odnosząca się do całkowitego okresu jego eksploatacji. Pojęcie niezawodności definiowane jest jako własność systemu mówiąca o zdolności do wykonywania żądanych funkcji w danych warunkach przez określony czas. Prognozowanie poziomu niezawodności urządzeń (w tym systemów zasilania i chłodzenia) jest zagadnieniem bardzo złożonym. Jedną z często stosowanych przez producentów metod jest prognozowanie na podstawie podobieństwa nowego produktu do posiadanych już doświadczeń. Efektywność tej metody zależy głównie od stopnia podobieństwa sprzętu nowego do tego już istniejącego, dla którego dostępne są doświadczenia wynikające z okresu jego użytkowania. Inną metodą określania niezawodności jest oparcie się na rzeczywistych danych pomiarowych związanych z konkretnym systemem. Analizując wskaźniki awaryjności użytkowanych produktów, producenci mogą szybko określić przyczyny usterek i usunąć je na etapie wytwarzania, zwiększając dzięki temu ich niezawodność. Ważnym czynnikiem wpływającym na utrzymanie poziomu niezawodności systemów technicznych jest dbałość o przestrzeganie wymaganych zakresów przeglądów okresowych i ich terminów oraz ustalonych przez producenta procedur obsługowych.

Zobacz również:

  • AI ma duży apetyt na prąd. Google znalazł na to sposób
  • AI a DC - oto jest wyzwanie
  • Nowe DC Atmana
Filary niezawodnego data center

Zależność współczynnika awaryjności w funkcji czasu

Parametr MTBF (Mean Time Between Failure) to podstawowa miara niezawodności systemu, która jest najczęściej wyrażana w godzinach, przy czym im wyższa jego wartość, tym wyższy poziom niezawodności. Częstym błędem odnośnie do interpretowania współczynnika MTBF jest uznawanie go za tzw. okres eksploatacji, czyli szacowaną średnią liczbę godzin działania, po której dochodzi do awarii systemu. Zdarza się, iż producenci podają współczynnik MTBF o wartości nawet miliona godzin, z czego wynikałoby, iż system będzie bezawaryjnie działać bez przerwy przez 100 lat. Do takich irracjonalnych wyników dochodzi, gdy okres eksploatacji kalkuje się na podstawie współczynnika awarii urządzenia przy założeniu warunku jego niezmienności w trakcie całego okresu użytkowania, co w przypadku skomplikowanych systemów nie jest możliwe, gdyż wraz z upływem czasu i technicznym zużyciem ulega on pogorszeniu. Wobec czego nie powinno się tworzyć bezpośredniego powiązania między okresem eksploatacji a współczynnikiem MTBF lub współczynnikiem awarii.

Współczynnik MTTR (Mean Time to Repair / Recover) oznacza średni czas wymagany do naprawy uszkodzonego urządzenia od momentu wystąpienia awarii do ponownego osiągnięcia przez niego pełnej funkcjonalności. Najczęściej uwzględnia on czas reakcji serwisu, czas wymagany na zdiagnozowanie problemu oraz czas fizycznej naprawy systemu. Parametr MTTR (podobnie jak MTBF) jest wyrażany w godzinach i im większa jego wartość, tym gorzej, gdyż oznacza to, iż na naprawę urządzenia po awarii należy przeznaczyć więcej czasu, z czego wynika mniejsza dostępność.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200