ABC ochroniarza sieciowego, cz. 4

W abstrakcyjnym i doskonałym świecie wszystko powinno działać bezawaryjnie. Raz zainstalowana sieć będzie pracowała w sposób perfekcyjny - wiecznie, czyli na zawsze.

W abstrakcyjnym i doskonałym świecie wszystko powinno działać bezawaryjnie. Raz zainstalowana sieć będzie pracowała w sposób perfekcyjny - wiecznie, czyli na zawsze.

W nieco tańszym, mniej doskonałym świecie, instalacja sieciowa pracuje bez zarzutu, a np. na 14 dni przed przewidywaną awarią ostrzega użytkownika, że jakąś część trzeba wymienić. Ten dzwoni do producenta, który bezpłatnie wymienia uszkodzony element po czym wszystko pracuje jak zwykle - bez zarzutu.

W świecie realnym, w którym przyszło nam żyć i pracować tak dobrze jeszcze nie ma. Obowiązuje tu prawo Murphy'ego, mówiące o tym, że o ile jakiś podzespół jeszcze się nie zepsuł, to wkrótce na pewno to nastąpi. W dodatku staje się to zwykle w takim terminie, gdy upływa właśnie jeden dzień od wygaśnięcia zobowiązań gwarancyjnych firmy-instalatora. Od tej reguły nie ma, w naszym niedoskonałym świecie, wyjątków, a już na pewno nie dotyczą one najistotniejszych elementów w sieci - serwerów. Jest to spowodowane dużą złożonością używanych urządzeń. O ile jeden element na milion ma szansę, że zepsuje się w ciągu roku pracy to, system składający się z miliona takich elementów, daje nam nieprzyjemnie duże prawdopodobieństwo awarii i to w ciągu bieżącego tygodnia.

Odporność systemu na awarię (fault tolerance) może być sposobem na tego typu kłopoty. Sama idea "fault tolerant" jest prosta - musimy przyjąć, że każdy podzespół ulegnie wcześniej czy później awarii i dlatego też powinniśmy opracować taką strategię postępowania aby awarię tę przetrwać.

Dla osób odpowiedzialnych za instalację sieciową, w której zapisywane są na serwerach bardzo ważne dane, typu "mission critical", stosowanie technik "fault tolerant" jest koniecznością. Niezależnie od nich należy stosować backup. Zadna z możliwych awarii nie jest tak groźna w swych następstwach jak zepsucie się dysku twardego. Jeżeli np. z monitora wydobędzie się dym, a ekran na zawsze przestanie działać, to najprostszą rzeczą będzie zastąpić go nowym urządzeniem. W przypadku dysku twardego sytuacja nie jest tak oczywista. Na dysku tym zapisywane są przecież dane klientów, dostawców, płatności, faktury i zamówienia. Utrata tych danych może sparaliżować pracę firmy na długi okres czasu. O ile posiadamy kopie backupowe należy je wczytać ze streamera na nowy, wymieniony dysk. Nie zawsze jednak chwila, w której następuje uszkodzenie zachodzi bezpośrednio po backupowaniu danych. Jeżeli dzieli je między sobą cały dzień pracy, to o ile nie stosujemy backupowania na bieżąco (on - line) musimy liczyć się z ewentualnością, że wszystkie dane z całego dnia pracy zostały stracone.

Powstało cały szereg technik "fault tolerant", które chronią dane przed utratą. Wymieniamy dzisiaj niektóre z nich.

Mirroring - czyli lustrzane dyski

Mirroring to taki styl pracy, w czasie którego informacja jest zapisywana na jednym dysku i jednocześnie na drugim, bliźniaczym. Mirroring wykonywany jest w sposób automatyczny za pomocą odpowiedniego oprogramowania i kontrolera. Zapewnia to mirroringowi takie zabezpieczenie danych, przy którym nie potrzebna jest ingerencja użytkownika. W związku z faktem, że jest to proces, który zachodzi w całym czasie pracy serwera awaria jednego z dwóch dysków nie spowoduje straty zapisywanej informacji. Wymiana uszkodzonego dysku odbywa się w sposób ręczny - należy wyłączyć zasilanie serwera, włożyć w miejsce uszkodzonego sformatowany, nowy dysk i uruchomić urządzenie. Kontroler oraz oprogramowanie powinny przepisać stare dane z jednego z dysków na nowy napęd dyskowy. Mirroring dyskowy posiada dwie, w porównaniu z innymi technikami "fault tolerant", oczywiste własności. Całkowita pojemność jednego z dysków jest równa połowie całkowitej pojemności dyskowej. System operacyjny musi zapisywać podwójnie tą samą informację, co powoduje spowolnienie czasu zapisu porównanego z zapisem jednokrotnym. Odpowiednio inteligentny software może tę niedogodność ominąć (stosując tzw. striping - patrz słowniczek). Stosowanie mirroringu można połączyć z zapisem danych na napędzie taśmowym w celu backupu - ale o tym pisaliśmy w poprzednim nr ABC.

Podwojenie kontrolerów

Kontroler to zespół układów elektronicznych, które kontrolują poprawną pracę napędu dyskowego. Dyski twarde, pracujące w układzie lustrzanym (mirroring) posiadają jeden, wspólny kontroler, co stanowi zagrożenie dla zapisanych danych w razie, gdy ulegnie on awarii. Aby takiej ewentualności zapobiec stosuje się dwa dyski, z których każdy zaopatrzony jest we własny kontroler - tzw. "controler duplexing". Jest to, jak widać, konsekwentne rozciągnięcie zasady mirroringu na dalsze elementy, tym razem nieruchome. Idąc konsekwentnie tym sposobem rozumowania należałoby zdublować płyty systemowe, a przy założeniu, że niezawodność takich urządzeń maleje z liczbą elementów można śmiało postawić tezę, że niezawodność płyty systemowej jest mniejsza niż kontrolera. Co innego awaryjność ruchomych części mechanicznych - jednym z częściej psujących się w komputerach urządzeniem jest np. wentylator, chłodzący układy zasilające. Można by z takiego rozumowania wyprowadzić wniosek, że stosowanie zabezpieczeń typu controller duplexing jest raczej stratą pieniędzy. Jednak powołując się na przytoczone wyżej prawo Murphy'ego możemy jeszcze raz podkreślić, że nigdy nic nie wiadomo, co i kiedy ulegnie awarii.

Techniki RAID

Metoda RAID (Redundand Array of Inexpensive Disks) jest obecnie jedna z popularniejszych metod ochrony danych. Została wymyślona w 1987 r. na uniwersytecie w Berkeley, USA. Zdefiniowano pięć poziomów zabezpieczeń typu RAID. Zabezpieczenie 0 polega na dzieleniu danych na bloki i jednoczesnym zapisywanu na oddzielnych dyskach (tzw. striping), tworzących matrycę dyskową (disk array). Jest to najszybszy zapis danych. Poziom 1, to omawiany wyżej mirroring i duplexing. Im wyższy poziom RAID tym lepsza ochrona danych oraz rosnąca cena urządzeń. Dla poziomów 4 i 5 dane oraz tzw. sumy kontrolne (patrz CW PL nr23 z '92 r.) są zapisywane na matrycy dyskowej, składającej się z kilku modułów dysków fizycznych. W przypadku uszkodzenia jednego z modułów, operator urządzenia, nie wyłączając zasilania serwera może wymienić uszkodzony moduł (tzw. hot swap). Zapisana na wyjętym module informacja zostanie zregenerowana na podstawie danych i sum kontrolnych zapisanych na jednostkach sąsiednich. Urządzenia tego typu wyposaża się w bardzo szybki , duży (np. 2 MB) cache z podtrzymaniem bateryjnym (na wypadek awarii zasilania), przez co operacje zapisu i odczytu z wykrywaniem i usuwaniem błędów zachodzą z wysoką prędkością. Urządzenia RAID 5 są praktycznie bezawaryjne, przy czym redundancja (zapis tych samych danych jeszcze raz), która dla mirroringu wynosi 100%, tutaj sięga 30%. Im większą pojemność ma system RAID, tym redundancja jest mniejsza (np. 10%). Jako ciekawostkę można przytoczyć dane producentów matryc RAID na temat średniego czasu pracy bezawaryjnej (MTBF). Wynosi on np. dla systemu RAIDION firmy Micropolis 1 mld godz. Dla porównania najlepsze na rynku napędy dysków twardych Quantum charakteryzują się MTBF 250 tys. godz. Warto zaznaczyć, że 100 tys. godz. to ok. 11 lat bezawaryjnej pracy.

Techniki "fault tolerant" nie zabezpieczają nas przed wszystkim, co dybie na bezpieczeństwo naszych danych. Najlepszy sprzęt jest o tyle dobry, o ile dobre i stabilne jest jego źródło zasilania, o ile kieruje jego pracą dobre oprogramowanie i oczywiście odpowiednio przeszkolony użytkownik. Musi on zdawać sobie sprawę z wszystkich możliwych zagrożeń i stosować odpowiednie metody obronne. Najgorszym z dostępnych rozwiązań jest całkowite lekceważenie praw Murphy'ego i w konsekwencji nagła, bezpowrotna utrata danych.

Słowniczek pojęć związanych z technikami "fault tolerant"

mirroring - tworzenie lustrzanej kopii twardego dysku na drugim

duplexing - jw. przy dodatkowym zdublowaniu kontrolerów

spanning - logiczne łączenie kilku dysków w jeden - ma to kapitalne znaczenie w tych zastosowaniach, gdzie pojemność jednego dysku jest zbyt mała

striping - jednoczesne zapisywanie/odczyt z kilku dysków, redukuje znacznie średni czas dostępu w środowisku wielodostępnym. Stosowany tam, gdzie jednocześnie wielu użytkowników dokonuje operacji dyskowych, a więc w bankach, biurach, magazynach

hot swaping - możliwość wymiany uszkodzonego dysku w matrycy dyskowej bez przerywania normalnej eksploatacji systemu.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200