Informatyczna Formuła 1

Wysoka dostępność systemów informatycznych tylko do pewnego stopnia jest pochodną dobrej infrastruktury. W równie dużym stopniu to efekt umiejętnego zarządzania organizacją, procesami i zespołem. Tak jak w wyścigach Formuły 1 we współczesnej informatyce sukces jest efektem działania zespołowego.

Wysoka dostępność systemów informatycznych tylko do pewnego stopnia jest pochodną dobrej infrastruktury. W równie dużym stopniu to efekt umiejętnego zarządzania organizacją, procesami i zespołem. Tak jak w wyścigach Formuły 1 we współczesnej informatyce sukces jest efektem działania zespołowego.

Gdy spytamy zarząd dowolnej firmy, czego oczekuje od działu informatyki, z prawdopodobieństwem graniczącym z pewnością wśród pierwszych rzeczy, które wymieni, będzie "sprawne działanie systemów, które wspierają podstawową działalność". Czynnik ten można inaczej zdefiniować jako dostępność systemów IT. W przypadku systemów kluczowych dla działalności przedsiębiorstwa (mission critical), np. uczestniczących w produkcji przemysłowej, obsłudze rynku konsumenckiego, kontroli ruchu pojazdów, obsłudze transakcji internetowych, potrzebna jest tzw. wysoka dostępność (high availability), czyli powyżej 99%.

Wielu producentów używa określenia high availability, aby reklamować swoje produkty: serwery, macierze, systemy operacyjne, bazy danych. Tymczasem termin "dostępność" nie powinien być odnoszony do pojedynczego komponentu technicznego, a do całego procesu biznesowego wspieranego przez narzędzia i zespoły IT.

Aby zrozumieć różnicę między bezawaryjnością a dostępnością, wyobraźmy sobie stronę internetową przedsiębiorstwa. Kupienie dobrego serwera z szybkimi i bezawaryjnymi dyskami, instalacja na nim wysokiej jakości systemu operacyjnego z dobrym serwerem WWW to oczywiście warunek konieczny. Ale jeśli ktoś pewnego dnia roześle błędne tabele routingu, w wyniku których użytkownicy chcący znaleźć stronę firmy nie trafią na właściwy serwer, to dostępność całego systemu będzie niska. I to pomimo poprawnego działania wszystkich komponentów.

W dobie sukcesów Roberta Kubicy można powołać się też na przykład wyścigów Formuły 1 i słynnej klapki wlewu paliwa. Producent i mechanicy dobrze przygotowali bolid do wyścigów, ale uzupełniając paliwo nie pamiętali o domknięciu wlewu paliwa. W efekcie auto miało inną aerodynamikę, kierowcy prowadziło się je gorzej, zaś efekt końcowy (pozycja Kubicy) odbiegał od oczekiwań.

Tak w wyścigach Formuły 1, jak i we współczesnej informatyce, sukces jest efektem zespołowego wkładu, wymaga zgrania wielu elementów oraz działania jednocześnie szybko, ale i według ustalonych procedur. Zaś przeoczenie jednego, istotnego elementu może w ogromnym stopniu wpłynąć na efekt.

Wysoka dostępność systemów nigdy nie jest kwestią przypadku, a konsekwencją przemyślanych działań w trzech horyzontach czasowych: operacyjnym, taktycznym i strategicznym.

Perspektywa operacyjna

Menedżer, który chce wysokiej dostępności, powinien szybko i sprawnie zareagować na pojawiającą się awarię. Przede wszystkim musi ją wykryć. Najprostszy znany sposób sygnalizowania przerwy w działaniu to informacja od użytkowników. Sygnał taki powinien być zarejestrowany, zaś organizacja powinna się nim w sposób systematyczny zająć i skutecznie zareagować. Podobnie z sygnałami płynącymi z narzędzi monitorujących. Jeśli więc "padnie" łącze internetowe, a firma posiada zapasowe, użytkownicy niczego nie zgłoszą. Zaczną natomiast "wyć syreny alarmowe" w systemach sprawdzających stan sieci. Dzięki nim dział informatyki będzie mógł szybko zareagować na awarię.

Zauważmy, że już nawet w horyzoncie operacyjnym zaczynają się kwestie związane z organizacją, procesami i narzędziami wsparcia. Aby ktoś rozwiązał problem (według ITIL: incydent) zgłoszony przez użytkownika, muszą zaistnieć odpowiednie warunki. Użytkownik musi wiedzieć, gdzie zadzwonić. Ktoś musi odebrać jego telefon. Zgłoszenie powinno zostać zarejestrowane (i nie zostać zapomniane). Wreszcie trzeba rozwiązać je skutecznie w określonym czasie. Przy pewnej liczbie zgłoszeń przestają wystarczać kolorowe karteczki albo e-mail, a pojawia się potrzeba wdrożenia kompletnych systemów obsługi helpdesku (service desku).

Jak więc widać, do przekroczenia bazowego progu dostępności (zwykle ok. 95-97%) potrzebne są nie tylko bezawaryjne "skrzynki", ale i umiejętne zarządzanie nimi oraz cała organizacja wsparcia i wspomagający ją system. Wdrożenie tych podstawowych praktyk i narzędzi pozwala operacyjnie zarządzać dostępnością w sposób reaktywny, tj. odpowiadać działaniem na niepokojące zdarzenia. Tylko tyle, choć dla niektórych organizacji to i tak wiele.

Następnych kilka procent

Gdy pierwsze inwestycje w infrastrukturę, struktury oraz procesy zostały wykonane, zaczyna się "walka" o następnych kilka procent. Te kilka procent dostępności to nadal dużo. Jeden procent niedostępności w ciągu roku przekłada się na aż 3 dni wyłączone z pracy; jeśli mamy do czynienia z aplikacją, której reżim pracy definiowany jest jako 24x7, zaś liczba użytkowników idzie w miliony, tych kilka dni oznacza utratę wielu klientów i fatalną opinię na rynku.

Kilka lat temu, gdy użytkowników Internetu było milion, zaś przerwy w działaniu serwisów sieciowych były stosunkowo częste, dostępność na poziomie 97-98% była akceptowana. Dziś już nie jest, dlatego współczesny menedżer odpowiedzialny za zapewnienie dostępności infrastruktury musi szukać nowych możliwości.

Może je znaleźć w taktycznym zarządzaniu informatyką. Analizy wykonywane od połowy lat dziewięćdziesiątych pokazują, że większość awarii, które dotykają użytkowników systemów informatycznych, ma przyczyny zawinione przez człowieka. Dokładniej mówiąc, poprzez umiejętne zarządzanie infrastrukturą oraz aplikacjami można trwale usunąć przyczyny źródłowe pewnych przerw w dostępności aplikacji oraz aktywnie zapobiec takim, które mogłyby się zdarzyć, gdyby sprawy pozostawiono samym sobie.

Odwołajmy się znowu do Formuły 1. Jeśli bolidowi zatankujemy za mało paliwa, stanie na torze albo będzie musiał zjechać do boksu, w momencie gdy decydują się wyniki. Jeśli zatankujemy za dużo, będzie zbyt ciężki, a przez to za mało dynamiczny i zbyt mało sterowny, aby kierowca mógł walczyć o czołowe miejsca.

W systemach IT problem "paliwa" także występuje i ma wpływ na ostateczny "wynik na mecie", czyli dostępność systemów. Jeśli nieoczekiwanie skończą się dyski, jeśli system operacyjny nie może powołać więcej procesów, użytkownicy nie będą mogli pracować.

Tego typu awarii można było zapobiec. "Zasoby rzadkie", takie jak przestrzeń dyskowa czy szerokość pasma rzadko, znikają w jednej chwili. Z reguły stopniowo są zużywane przez wzrastającą liczbę użytkowników, nowe aplikacje albo po prostu upływ czasu. Obejmując te wielkości monitoringiem, ustawiając alarmy (np. po przekroczeniu 80% zajętości łącza) oraz zawczasu przygotowując się do nich, można zareagować odpowiednio wcześnie, czy to dokonując upgrade'u infrastruktury, czy też analizując i usuwając przyczyny nadmiernego wzrostu konsumpcji zasobów.

Kolejny przykład sposobu na osiągnięcie lepszej dostępności to umiejętne zarządzanie zmianą. Każda infrastruktura informatyczna wymaga wprowadzania zmian i ważne, żeby wprowadzenie takiej zmiany było tak zaplanowane, przygotowane i przeprowadzone, by systemy na tym nie ucierpiały.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200