Technologie zwiększające dostępność serwerów

Inteligentne kontrolery RAID

Kontrolery RAID (Redundant Array of Independent Disks) pozwalają tak zorganizować i pogrupować kilka dysków, że funkcjonują one logicznie jako jeden wirtualny dysk twardy, który pracuje niezawodnie i jest zawsze dostępny. Wielu producentów stosuje inteligentne kontrolery RAID. Przykładem może być rozwiązanie HP noszące nazwę Smart Array, które jest stosowane w serwerach ProLiant. Kontrolery Smart Array wspierają wiele poziomów RAID (w tym RAID 1+0 i RAID 5), pracując w oparciu o opatentowaną przez HP technologię RAID ADG (Advanced Data Guarding).

RAID ADG tworzy dwa zestawy danych, które są zapisywane w określony sposób (stripping) na wielu dyskach twardych. Tak zapisane dane są bezpieczne, ponieważ można je odczytać nawet wtedy, gdy któryś z dysków ulega awarii.

Kontrolery RAID zawsze przechowują dane przez pewien czas w buforze. W przypadku utraty zasilania, dane przechowywane w buforze (oczekujące na zapisanie na dysku) są tracone. Aby uniknąć takich sytuacji, inteligentne kontrolery RAID zawierają dodatkowy bufor, który jest zasilany z baterii. Gdy znika zasilanie, dane nie są tracone, ponieważ do akcji wchodzi dodatkowy bufor, z którego kontroler może pobrać dane i zapisać je na dysku.

IBM natomiast stosuje w dziedzinie pamięci masowej rozwiązanie PFA (Predictive Failure Analysis). Analizuje ono pracę dysków SCSI. Jeśli dysk wygeneruje komunikat PFA, kontroler ServeRAID dostrzega ten fakt i przesyła komunikat do konsoli zarządzania ServeRAID, która obsługuje standard SNMP (automatyczne powiadamianie o awariach).

Odmładzanie oprogramowania

Serwer może odmówić posłuszeństwa nie tylko dlatego, że uszkodzeniu uległ np. dysk czy pamięć RAM (warstwa sprzętowa), ale z powodu błędnej pracy oprogramowania. Ciekawym rozwiązaniem może się pochwalić IBM. Jest nim narzędzie noszące nazwę Software Rejuvenation, które na bieżąco bada oprogramowanie zainstalowane na serwerze. Software Rejuvenation stara się określić, czy na skutek "starzenia" się aplikacji nie może dojść do problemów, mogących prowadzić nawet do zawieszania się całego systemu. Program planuje automatycznie moment, kiedy serwer powinien zostać zresetowany. IBM określa taką operację "odmładzaniem systemu".

Software Rejuvenation sprawdza też, czy system dysponuje wystarczającymi zasobami. Jeśli jakiś zasób jest zbyt mały, program generuje alert i przesyła go do administratora. Użytkownik może też sam zaplanować, kiedy system powinien być "odmładzany".

W przypadku serwerów pracujących pod kontrolą systemu Windows, program monitoruje stan liczników umieszczonych w rejestrze i na ich podstawie generuje dane statystyczne, takie jak wielkość dostępnej pamięci RAM, wykorzystanie dysków twardych itd. To samo ma miejsce w przypadku serwerów pracujących pod systemem Linux, z tym że dane są tu zbierane w inny sposób.

Użytkownik może decydować sam (wybierając odpowiednią opcję), jak będzie przebiegać "odmładzanie" systemu. Program Software Rejuvenation może zatrzymać i następnie uruchomić ponownie proces lub aplikację zainstalowaną na serwerze, albo może zresetować cały system i uruchomić ponownie serwer.

Chłodzenie i zasilanie

System chłodzenia serwerów może pracować na dwa sposoby. Pierwsze rozwiązanie jest bardzo proste - jeśli wentylator ulega uszkodzeniu, temperatura wzrasta do takiego poziomu, że administrator musi wyłączyć serwer z eksploatacji, wymienić wentylator i następnie włączyć go ponownie do eksploatacji.

Drugie rozwiązanie zwiększa dostępność serwera, ponieważ uszkodzony wentylator można wymienić "na gorąco", czyli nie wyłączając serwera z eksploatacji. Aby zwiększyć dostępność serwerów, producenci instalują w nich tylko takie wentylatory, w których zastosowano specjalne łożyska. Są to często wentylatory mające specjalną konstrukcję, gwarantujące szybkie odprowadzanie ciepła od dysków twardych, procesorów i innych elementów serwera, które wydzielają ciepło.

Serwery są też wyposażane w nadmiarowe zasilacze, które można wymieniać na gorąco. Wentylatory chłodzące zasilacze też można wymieniać na gorąco. Gdy serwer ma dwa zasilacze, każdy dostarcza połowę mocy niezbędnej do normalnej pracy systemu. Redukuje to obciążenie zasilaczy, dzięki czemu mogą one pracować bardzo długo bez awarii.

Ochrona pamięci RAM

Dostępność serwerów można zwiększać przez stosowanie mechanizmów dających pewność, że pamięć RAM nie odmówi nam nigdy posłuszeństwa. Te mechanizmy to: ECC (Error Correcting Code), Online Spare Memory czy Mirrored Memory.

Odmianą technologii ECC jest Advanced ECC. Pozwala ona poprawiać tzw. wielobitowe błędy występujące w obszarze jednego układu scalonego DRAM (technologia ECC poprawia tylko jednobitowe błędy).

Technologia Online Spare Memory monitoruje moduł pamięci DIMM (Dual Inline Memory Module) i sprawdza, czy poziom błędów nie przekracza wcześniej określonego progu. W przypadku wystąpienia błędu technologia koryguje go i kopiuje dane z całego banku (w którym znajduje się uszkodzony moduł DIMM) do zapasowej pamięci pracującej w trybie online (czyli gotowej zawsze do użytku). Uszkodzony bank jest deaktywowany, ale serwer pozostaje dostępny do czasu, gdy administrator zaplanuje wymianę uszkodzonego modułu na inny.

Podczas gdy technologia Online Spare Memory chroni nas przed jednobitowymi błędami, technologia Mirrored Memory chroni serwer zarówno przez jednobitowymi, jak i wielobitowymi błędami. Po zastosowaniu tego rozwiązania dane są zawsze przechowywane w dwóch miejscach: w pamięci systemowej i w lustrzanym banku pamięci. Jeśli w module DIMM należącym do pamięci systemowej występują wielobitowe błędy, albo poziom jednobitowych błędów przekracza określony próg, lustrzana pamięć RAM przejmuje funkcję pamięci systemowej.

Niektórzy producenci serwerów stosują jeszcze bardziej wyrafinowaną (i drogą) metodę ochrony pamięci RAM: RAID RAM. Serwer jest wtedy dostępny, nawet gdy uszkodzeniu ulegnie cała systemowa pamięć RAM.


TOP 200