Dmuchać na zimne

Od pewnego czasu nic się nie dzieje. Użytkownicy nie mają problemów. Serwery pracują. Drukarki drukują, a rozleniwiony informatyk przyjmuje coraz wygodniejszą pozycję w fotelu, wystukując kolejne adresy w Internecie.

Od pewnego czasu nic się nie dzieje. Użytkownicy nie mają problemów. Serwery pracują. Drukarki drukują, a rozleniwiony informatyk przyjmuje coraz wygodniejszą pozycję w fotelu, wystukując kolejne adresy w Internecie.

To właśnie odpowiednia chwila, by zacząć dmuchać na zimne. To znaczy zadać sobie pytanie, czy wszystko z systemem komputerowym jest w porządku? I zacząć sprawdzać, czy to, co nam się wydaje, jest zgodne z rzeczywistością.

Co by było gdyby...

Informatyk przed zapadnięciem w sen mógłby zastanowić się, co by było, gdyby właśnie w tej chwili nastąpiła awaria? Czy np. jest w stanie odpowiedzieć na pytanie: gdzie są tasiemki z kopią systemu? No, z tym nie ma problemu - mówi informatyk. Ostatnio leżały w pudełku, w szafie. By okazać swój profesjonalizm, informatyk wstaje i idzie do szafy. Niestety, jest zamknięta na klucz. Klucze widziałem dwa dni temu, leżały na biurku - uspokaja się informatyk. Przekopuje papiery na biurku, powiedzmy z dobrym skutkiem. Otwiera szafę i nie znajduje w niej tasiemek. O! - wydaje zdziwiony okrzyk.

Brak tasiemek jest pewnym problemem. Wiem, kto je ma - mówi po zastanowieniu informatyk. - Kolega X, zadzwonię do niego - sięga po słuchawkę. Niestety, przypomina sobie, że nie pamięta, jaki jest telefon do kolegi X, więc szuka numeru telefonu. W tej chwili można go już zostawić, niech szuka. Zresztą, oprócz szukania, zajął się sprawdzeniem prawidłowości wykonania kopii systemu z ostatniej nocy. Co go mogło do tego natchnąć?

Czego może zabraknąć?

Przede wszystkim dokumentacji. Brak zawartej w niej informacji może być niebezpieczny. Choćby wiedza o tym, jak usuwać konkretne awarie. Rozbudowane systemy informatyczne tworzone są przez wielu pracowników. Tylko oni wiedzą, co i jak zostało ustawione. Zresztą, wiedzą tylko przez pewien czas. Potem zapominają. Inni pracownicy są od razu na straconej pozycji. Dla nich usuwanie awarii będzie poszukiwaniem nieznanych rozwiązań, zamiast realizacją prostych - i skutecznych - czynności prowadzących do celu. Ponadto każdy informatyk może mieć swoją wizję rozwiązania problemu, więc nie musi wzorować się na koledze. Wcale nie ma pewności, że jego działania będą wiodły do prawidłowego rozwiązania.

Niebezpieczny może być brak wiedzy o ludziach. Brak ten odczuwamy szczególnie wtedy, kiedy straciliśmy dużo czasu na samodzielnych poszukiwaniach przyczyny awarii i mamy już mało czasu na jej usunięcie. Toteż chcielibyśmy uzyskać szybko potrzebne informacje i mieć to wszystko za sobą. Niestety, osoby, które mogłyby służyć pomocą, śpią spokojnie.

Oprócz wiedzy może nam zabraknąć wielu rzeczy: oprogramowania, nośników, części zamiennych, narzędzi, przykładowych tasiemek lub kluczy do nich. Każdy taki brak - gdy wszystko działa - nie ma znaczenia. Gdy nadejdzie godzina próby, będzie za późno. Toteż ważne jest, by przed awarią uzyskać wszystkie potrzebne informacje i skompletować narzędzia.

Ponadto należy wypróbować procedury wykonywane w celu usunięcia awarii, może się bowiem okazać, że są nieaktualne. Przykładem może być awaria serwera w oddziale lokalnym dużej firmy. Zdalne uruchomienie serwera (przy pomocy osoby nie będącej informatykiem) nie udało się. Dopiero bliższe poznanie serwera wykazało, że dokumentacja nie zgadza się z rzeczywistością. Kontrolery dysków znajdowały się w gniazdach o innych numerach, a karty sieciowe są zupełnie innego typu niż było to zapisane. Z tego powodu nastąpiły kosztowne opóźnienia w procesie produkcji firmy, a uruchomienie serwera wymagało od informatyków z centrali odbycia nocnej wycieczki przez pół kraju.

Nieoczekiwane zakończenie

Podczas pisania tych słów życie niespodziewanie dopisało praktyczną stronę do przedstawionych tez. W połowie zdania, bez uprzedzenia, miała miejsce awaria zasilania, spowodowana przez elektrownię. Nikt jej nie zauważył, nic nie zgasło, system komputerowy zasilany przez ups też nie alarmował.

Dlaczego nie alarmował? Ponieważ ups stoi oddalony od informatyków i nie było słychać alarmu; komputer przeznaczony do monitorowania upsa nie zapalił żółtych ani czerwonych lampek - napięcie podawane do wydzielonej sieci zasilającej było normalne, a zapas energii w bateriach był duży. Zgasły tylko zielone lampki oznaczające napięcie z elektrowni, ale tego z daleka nie widać. Ponadto okazało się, że "brzęczyk" stojący na biurku jednego z informatyków działa z opóźnieniem.

Poza tym informacja o braku zasilania nie dotarła do oprogramowania zamykającego system z powodu wielokrotnego zabezpieczenia serwerów (dodatkowy mały ups do każdego serwera). Z tych wszystkich powodów informatycy dowiedzieli się o awarii od użytkowników.

A przed awarią wydawało się, że system skonfigurowano w ten sposób, iż żadne zdarzenie związane z zasilaniem nie umknie informatykom. Rzeczywistość okazała się inna. Może więc warto wstać z fotela i porozglądać się po pokoju informatyków.