Awarie uderzają znienacka

Ochrona instalacji sieciowych przed awariami, to dzień powszedni dla zakładowego informatyka. Niestraszne są mu burze z piorunami czy warunki wyjątkowego zagrożenia. To on zdecydował o dołączeniu do każdego szczególnie ważnego serwera w sieci zasilaczy typu UPS, jego głos zaważył o zasilaniu każdej ze stacji roboczych za pośrednictwem stabilizatora napięcia zasilania. On także realizuje codziennie, a czasami i dwa razy na dzień procedurę zapisu kopii backupowych, a zapisane taśmy przechowuje z dala od pomieszczeń biurowych.

Ochrona instalacji sieciowych przed awariami, to dzień powszedni dla zakładowego informatyka. Niestraszne są mu burze z piorunami czy warunki wyjątkowego zagrożenia. To on zdecydował o dołączeniu do każdego szczególnie ważnego serwera w sieci zasilaczy typu UPS, jego głos zaważył o zasilaniu każdej ze stacji roboczych za pośrednictwem stabilizatora napięcia zasilania. On także realizuje codziennie, a czasami i dwa razy na dzień procedurę zapisu kopii backupowych, a zapisane taśmy przechowuje z dala od pomieszczeń biurowych.

Mimo to awaria może nadejść w każdej chwili - często na skutek tak błachych przyczyn, że aż warto to opisać. Przedstawiamy dzisiaj cztery przypowieści o awariach - imiona głównych bohaterów i realia w jakich przyszło im pracować są nieco zmienione.

Ekspresowa awaria

Maria K. nigdy nie przypuszczała, że awarię sieci, którą się opiekowała, spowodują zakłócenia elektryczne. Była święcie przekonana, że kable światłowodowe za pośrednictwem których transmitowane są dane w jej sieci, są całkowicie odporne na zakłócenia czy przepięcia elektryczne. Przecież sygnał w kablach światłowodowych nie ma nic wspólnego z przepływem prądu.

Stało się to w poniedziałek z samego rana. Krótko po jej telefonie do pracy, że czuje się bardzo źle i dzisiaj nie przyjdzie, zadzwonił do niej oszalały z przerażenia szef. Wkrótce po załączeniu całej sieci uruchamiane aplikacje zaczęły pracować tak wolno, że praca z nimi stała się praktycznie niemożliwa. Co gorsza praca podsystemu zbierającego zamówienia dla firmy, a więc tej części całego systemu, od którego w sposób całkiem bezpośredni zależą zyski całego zakładu pracy, została nagle zastopowana. Czy praca całej sieci także ulegnie zahamowaniu? Czy przetwarzane, bardzo ważne dane zostaną na zawsze zniszczone?

Chora nie chora, Maria K. musiała się dostać do pracy aby przywrócić swą firmę do życia. Krótka diagnoza stanu sieci, wykonana za pośrednictwem połączenia telefonicznego z jej domu pokazała, że nie działają jak trzeba połączenia światłowodowe. Cóż mogło się tam przytrafić?

Już na miejscu, w pracy, poszukiwanie przyczyn awarii wskazało winowajcę - był nim osmolony, przepalony multiplekser. Urządzenie to pozwalało na dołączanie wielu kanałów komunikacyjnych do pojedynczego toru światłowodowego i było niestety podłączone do tego samego obwodu zasilającego co ekspres do kawy. Szpilki przepięć napięciowych generowane przez pracujący ekspres spowodowały spalenie zasilacza w multiplekserze. Łącza światłowodowe były oczywiście nie uszkodzone. Wszelkie zabezpieczenia przeciw tego typu uszkodzeniom były niewystarczające. Nigdy do tej pory nie wydarzyło się przecież, aby multiplekser uległ awarii.

Kiedy łącze o wysokiej szybkości przesyłania danych przestało działać, system przełączył automatycznie niesprawne połączenia na linię analogową. Taka sytuacja wystarczała tylko dla niewielkiej części przesyłanej szerokości pasma - stąd też aplikacje pracowały tak wolno. Maria K. wymieniła multiplekser i przywróciła życie swojej firmie.

Opowiadanie o bezprzerwowym UPS-ie

Paweł S. zarządza siecią NetWare 3.11, wyposażoną w sporą ilość węzłów. Współpracuje ona z kilkoma rozproszonymi bazami danych w dużej rządowej fundacji. Aby się zabezpieczyć przed wahaniami lub wręcz zanikami napięć zasilających zainstalowano do każdego z pięciu najważniejszych serwerów w sieci zasilacze bezprzerwowe typu UPS. Cała sieć, zdaniem Pawła, dzięki tym zasilaczom była dość skutecznie zabezpieczona przed różnymi awariami. Tymczasem, jak na ironię, awarii nie spowodował ani huragan ani wyładowania elektryczne w czasie burzy. Spowodowała ją przerwa w działaniu zasilacza bezprzerwowego. Cóż to takiego się stało? Po prostu ktoś niechcący odłączył od sieci zasilacz UPS.

Kabel zasilający całe urządzenie został wyszarpnięty z gniazda w ścianie, prawdopodobnie w trakcie przesuwania któregoś z elementów systemu. W efekcie tego zdarzenia "padła" cała zakładowa sięć LAN, a jej użytkownicy wpadli w panikę. Przetwarzane dane uległy zniszczeniu, praca firmy została wstrzymana. Po blisko godzinie pracy, w trakcie której Paweł odtwarzał dane z taśm backupu, sieć została ponownie uruchomiona. Po tym zdarzeniu Paweł S. zabezpieczył wszystkie gniazda sieciowe przed możliwością ich odłączenia za pomocą specjalnych osłon. Zwraca od tej pory baczną uwagę na stan kabli zasilających oraz sposób ich prowadzenia, szczególnie uważając aby nie można było ich wyszarpnąć.

"Wiele osób poświęca nieraz bardzo dużo czasu i energii na walkę np. z wirusami. W rzeczywistości większość awarii zachodzi na skutek prostych acz całkiem niespodziewanych zjawisk" mówi Paweł S. "Nawet jeżeli tak trywialnych zdarzeń nie bierze się pod uwagę to właśnie one mogą się przede wszystkim wydarzyć".

GUI prowadzi na manowce

Informatyk odpowiedzialny za prawidłową pracę instalacji sieciowej nigdy dwa razy nie powtarza tej samej omyłki - tymczasem awarie w sieci mogą i będą się przytrafiały wiele razy. Paweł S. musiał nieco popracować za pośrednictwem interfejsu użytkownika typu GUI oprogramowania zarządzającego. Ta prosta czynność wcale nie zapowiadała poważnej awarii, która wkrótce potem nastąpiła.

Tak jak wielu informatyków zarządzających pracą sieci Paweł S. tak skonfigurował GUI, aby w sposób maksymalnie uproszczony można było dokonywać zarządzania całą siecią. Interfejs pozwalał autoryzowanym operatorom na wykonywanie złożonych operacji w sposób bardzo prosty i łatwy.

Między innymi Paweł chciał skorzystał z poleceń "Bindfix" i "Bindrest", których działanie uaktywnia się za pomocą myszy. Binfix "robi porządek" w dotychczasowej konfiguracji sieci, zapisując zawartość używanej do tej pory konfiguracji w plikach z rozszerzeniem *.old, a jednocześnie opisuje aktualną konfigurację pozbywając się zapisu o dostępie do usuniętych zasobów sieci, adresów nie istniejących drukarek czy napędów dyskowych i innych odłączonych od systemu obiektów. Z kolei Bindrest otwiera plik konfiguracyjny *.old i odtwarza na jego podstawie zapis starej konfiguracji sieci. Jest to odtworzenie backupu pliku konfiguracyjnego.

Kiedy po dłuższym okresie czasu Paweł chciał uaktualnić tzw. bindery (baza danych określająca konfigurację całej instalacji sieci NetWare) powinien przy użyciu myszy uruchomić Bindfix. Tymczasem czy dłoń zadrżała, czy mysz była zbyt leniwa - Paweł przez pomyłkę uruchomił polecenie Bindrest. Łatwość obsługi GUI zaowocowała tym razem łatwym wprowadzeniem poważnego błędu.

Zanim operator zorientował się, konfiguracja sieci została przywrócona do dawnej, nijak nie pasującej do obecnej rzeczywistości. Zaginęły dane o głównej bazie dostępnych usług i zasobów sieciowych. Nowi użytkownicy nie mogli się zalogować. Na miejsce nowych haseł dostępu przywrócone zostały stare hasła. Na miejsce baz konfiguracyjnych, gdzie można było wpisywać nowe dane pojawiły się bazy "tylko do odczytu". Awaria zagościła w sieci na całego.

Całe szczęście, że do dyspozycji Pawła były taśmy z kopiami backupu. Odpowiednia taśma zawierała także właściwe pliki konfiguracyjne. Po początkowym wstrząsie Paweł mógł bez specjalnych kłopotów przywrócić swoją sieć do życia. Aby na przyszłość uchronić się przed takimi zdarzeniami Paweł zaistalował ostrzeżenie "Are you sure?" (Czy jesteś pewny?), które automatyczne pojawia się przed wykonaniem poleceń. Towarzyszy ono procedurom, które są wykonywane w wyjątkowo odpowiedzialnych obszarach zarządzania siecią.

Wstrzymane wypłaty

Na dzień wcześniej, zanim Ewa S. rozpoczęła swoją nową pracę - w charakterze osoby zarządzającej instalacją sieciową - w biurze jej przyszłego pracodawcy zatrzymał się na zawsze napęd dysku twardego, dołączony do serwera gdzie przechowywano najważniejsze dane księgowe. Były tam m.in. zapisane rekordy, które dotyczyły listy wypłat dla pracowników firmy na następny dzień.

Nie była to wymarzona sytuacja do rozpoczęcia nowej pracy. Jednak Ewa S. nie martwiła się tym zbytnio. Zdawała sobie sprawę z tego, że wystarczy zainstalować w systemie dane z przechowywanych gdzieś w firmie taśm kopii backupu. W najgorszym razie zajmie jej to cały dzień pracy. Jej dobry humor zniknął, gdy odkryła, że aktualnych kopii danych po prostu nie ma.

Jak się okazało, zatrudniono ją na tym stanowisku w cztery tygodnie po odejściu poprzedniego informatyka. Pomimo, że wyznaczo dwóch pracowników którzy mieli go zastępować w jego podstawowych obowiązkach, żaden z nich nie wiedział, że należy zapisywać kopie bezpieczeństwa danych z serwera rachunkowego. Myśleli, że ta operacja jest zautomatyzowana.

Konsekwencje awarii były dość kosztowne dla firmy. Musiano opłacić m.in. nadgodziny dla czterech osób (300 nadgodzin po ok. 200 tys. zł za godz.) które na nowo wpisywały dane listy wypłat. Trwało to trzy dni (po 16 godzin pracy dziennie), zaś pracownicy całego przesiębiorstwa cierpliwie czekali na wypłatę. Co gorsza Ewa S. musiała zlecić (za ok. 4 tys. USD) pracę firmie zajmującej się odtwarzaniem utraconych danych z uszkodzonych napędów dyskowych.

Ewa S. mówi, że od tamtego czasu nic podobnego się nie przytrafiło. Skrupulatnie realizuje harmonogram zapisu taśm backupowych zgodnie z ustaloną procedurą. Dane są kopiowane na taśmy nawet wtedy, kiedy jej nie ma w pracy. A morał całej historii jest taki, że procedury backupu nie są tylko i wyłącznie czynnościami informatycznyczmi - są to także działania związane z pracą i funkcjonowaniem całej firmy.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200