Plan na wszelki wypadek

Planowanie ciągłości działania oraz odtwarzania poawaryjnego umożliwi firmom przygotowanie się na nieoczekiwane zdarzenia.

Takimi zdarzeniami mogą być ekstremalne zjawiska pogodowe, pożar, katastrofa budowlana lub zanik napięcia spowodowany lokalną awarią. Każda firma powinna przygotować i wdrożyć plan obejmujący oba aspekty – zachowanie ciągłości działania oraz odtwarzanie poawaryjne.

Plan awaryjny w organizacji powinien łączyć oba najważniejsze zagadnienia, obejmując zarówno planowanie działań firmy w warunkach szczególnych, jak i odtwarzanie zasobów już po zdarzeniu losowym, które spowodowało szkody. Zdarzenie to może być rozległe (np. katastrofalna powódź lub duży pożar) albo lokalne, może być spowodowane czynnikami zewnętrznymi, albo wewnętrznymi. Przyczyną problemów w pracy może być także atak z użyciem złośliwego oprogramowania, awaria techniczna lub niedopatrzenie, nieobecność części pracowników, a nawet problemy z łańcuchem dostaw.

Zobacz również:

  • Biały Dom chce wzmocnić kontrolę nad sztuczną inteligencją

Na liście rozważanych przyczyn przerw w pracy powinny znaleźć się różne zdarzenia, nawet jeśli na pierwszy rzut oka wydają się mało prawdopodobne. Niedopatrzenie może nieść po1ważne skutki – niektóre polskie firmy doświadczyły tego na własnej skórze w lipcu 1997 r., podczas „powodzi tysiąclecia”, w kwietniu 2008 r., gdy doszło do awarii zasilania w okolicach Szczecina, a także na mniejszą skalę podczas powodzi w 2010 r. Lokalne zdarzenia mogą obejmować m.in.: infekcję z użyciem złośliwego oprogramowania blokującego dostęp do plików, kradzież urządzeń lub zniszczenie spowodowane pożarem.

Całościowe spojrzenie

We wszystkich planach awaryjnych należy uwzględnić sposób komunikacji pracowników, ich zadania, lokalizację, do której mają się udać, i sposób, w jaki będą pełnili swoje obowiązki w krytycznych warunkach. Szczegóły mogą się różnić, zależnie od skali i sposobu działania organizacji, w tym branży. Dla niektórych firm problemy z łańcuchem dostaw są krytycznie ważne, i to na nich koncentruje się wiele pozycji planu awaryjnego. W innych firmach kluczową rolę grają systemy IT i dlatego we wszystkich planach zachowania ciągłości działania i odtwarzania poawaryjnego wielki nacisk kładzie się na akcje w obrębie działu informatyki. Aby przygotować dobry plan, trzeba spojrzeć na firmę całościowo.

Pierwszym krokiem, od którego warto rozpocząć przygotowania do budowy planu awaryjnego, jest analiza skutków zdarzeń. Po ustaleniu głównych elementów infrastruktury i zasobów niezbędnych do pracy firmy można określić efekt, jaki wywoła przerwa w dostępności każdego z zasobów.

Przykładowy plan disaster recovery dla działającej globalnie firmy z sektora handlowego może obejmować odtworzenie krytycznej infrastruktury przetwarzania danych w rezerwowym ośrodku w przypadku przerwy dłuższej niż cztery dni. W tym ośrodku w ciągu maksymalnie dwóch dni musi być uruchomiona mobilna centrala PBX obsługująca 500 telefonów. W ciągu maksymalnie dwóch dni niezbędna będzie obsługa 1000 punktów sieci LAN na potrzeby obsługi biznesu, a także tymczasowe call center dla 100 agentów. Wszystkie wymieniane elementy i zasoby (fizyczne, IT oraz personel) muszą być dostępne jednocześnie, poniewaz ludzie muszą korzystać z zasobów IT i komunikować się ze sobą.

Przy tworzeniu planu disaster recovery należy wskazać systemy i jednostki organizacyjne, które są niezbędne do działania przedsiębiorstwa, a także wybrać osoby odpowiedzialne za uruchomienie planów awaryjnych w razie zagrożenia. Plan musi również uwzględniać konieczność lokalizacji osób i komunikowania się z nimi w przypadku poważnych zdarzeń losowych o większej skali. W Stanach Zjednoczonych przykładem mógłby być huragan o sile porównywalnej do Katriny (sierpień 2005 r., zniszczenie Nowego Orleanu, duże straty na Florydzie), w Polsce zaś powódź (podobna do tej z 1997 r.) lub wielkoskalowa awaria energetyczna. Przy tworzeniu planu należy także uwzględnić fakt, że pracownicy bezpośrednio dotknięci zagrożeniem mogą mieć poważne problemy i niekiedy nie będą mogli stawić się w pracy.

Od zera do planu

Pierwszym krokiem, od którego warto rozpocząć przygotowania do budowy planu awaryjnego, jest analiza skutków zdarzeń (BIA – Business Impact Analysis). Po ustaleniu najważniejszych elementów infrastruktury i zasobów niezbędnych do pracy firmy można określić efekt, jaki wywoła przerwa w dostępności każdego z zasobów. Im większy potencjalny skutek, tym większe powinny być nakłady na przywrócenie dostępności wybranego zasobu. Z drugiej strony należy określić oczekiwany poziom dostępności w porównaniu do nakładów.

Przedsiębiorstwo z sektora finansowego obsługujące transakcje handlowe może zdecydować się na zakup rozwiązań i usług, które umożliwią natychmiastowe wznowienie działania w rezerwowym ośrodku obliczeniowym w sposób bezprzerwowy, bez utraty transakcji. Z kolei firma zajmująca się handlem wysyłkowym może przyjąć przerwę w pracy trwającą aż 24 godziny. Opracowanie BIA umożliwi także określenie kolejności, według której poszczególne usługi i jednostki biznesowe będą ponownie uruchamiane.

10 podstawowych punktów planu awaryjnego

Przedstawiamy podstawowe działania, które powinny znaleźć się w każdym planie awaryjnym:

- Opracować i wprowadzić w życie plan, który zakłada przejęcie kierowania firmą (plan sukcesji CEO).

- Szkolić rezerwową kadrę w zadaniach, które będą pełnili w warunkach kryzysowych. Pracownicy, na których w tej chwili firma polega, nie zawsze będą dostępni.

- Określić miejsca narad poza siedzibą firmy, a także plan komunikacji kryzysowej dla zarządu. Testować komunikację kryzysową z pracownikami, klientami i światem zewnętrznym.

- Wdrożyć alternatywne sposoby komunikacji na wypadek awarii sieci telefonicznych.

- Upewnić się, że zarówno wszyscy pracownicy, jak i zarząd są wdrożeni w działania awaryjne i dzięki ćwiczeniom będą przygotowani na warunki kryzysowe.

- Scenariusze ćwiczeń kryzysowych powinny być realistyczne, by można było ocenić działanie w stresie zbliżonym do rzeczywistego zagrożenia.

- Opracować partnerstwo z lokalnymi grupami odpowiedzi na zagrożenia – strażą pożarną, policją, pogotowiem ratunkowym, by służby poznały lokalizację i działanie firmy.

- Podczas każdego testu mierzyć sprawność pracy w firmie i pracować nad jej poprawą. Testy ciągłości działania za każdym razem powinny pokazywać istniejące słabości,

- Regularnie testować plan, wprowadzać niezbędne zmiany, uwzględniać przy tym rotację personelu i zmiany firmowej infrastruktury.

- Korzystać z dobrych wzorców i doświadczeń innych przedsiębiorstw.

Wszyscy, włącznie z zarządem firmy, muszą mieć świadomość, że ćwiczenia sytuacji awaryjnych są zdarzeniami wpływającymi na sprawność działania organizacji.

Najpoważniejsze błędy

Mike Hager szef działu bezpieczeństwa informacji i odtwarzania poawaryjnego w firmie OppenhiemerFunds podaje cztery najistotniejsze błędy popełniane przy tworzeniu planu awaryjnego:

- Błędy w samym planie, w tym brak rozpoznania rzeczywiście krytycznych systemów razem z procedurami ich odtworzenia. Bardzo wielu CIO jest przekonanych, że doskonale wiedzą, co się dzieje w ich sieci, ale naprawdę nie wiedzą oni nawet, ile mają serwerów ani jakie aplikacje tam pracują i które usługi obsługują.

- Brak współpracy ze strony biznesu podczas planowania i prawdziwych testów disaster recovery

- Brak pomocy ze strony menedżerów wyższego szczebla, w tym: brak wsparcia przy staraniach wymaganych do kompletnego odtworzenia firmy, brak rzetelnej analizy BIA, adresującej wszystkie wątpliwe miejsca modelu, brak określenia niezbędnego czasu odtworzenia, potrzebnych dokumentów oraz detali procesów, które muszą działać po katastrofie.

- Brak budżetu pozwalającego na testy przeprowadzane przynajmniej co pół roku.

Pośród mniejszych niedopatrzeń wyróżnić można:

- nieujmowanie laptopów i innych urządzeń przenośnych w planach backupowych;

- niewłaściwe planowanie rezerwowych miejsc pracy;

- nieuwzględnianie zagadnień socjalnych związanych z sytuacjami kryzysowymi (np. miejsce, gdzie personel może przeczekać uruchamianie biura w rezerwowej lokalizacji);

- złe określanie czasu niezbędnego na uruchomienie usług;

- niewłaściwe plany ewakuacji, błędy w planie transportu ludzi i innych zasobów;

- brak opracowanej strategii pracy zdalnej przynajmniej dla części pracowników.

Pomocne technologie

Postęp techniczny sprawia, że niektóre zadania można dziś wykonać znacznie szybciej i prościej niż jeszcze dekadę temu. Przyspieszenie i usprawnienie działania IT nie pozostają bez wpływu na disaster recovery – oprócz usprawnienia mogą jednak powodować dodatkowe komplikacje, które należy uwzględnić.

Wirtualizacja – standardowa technologia dzisiejszego IT. Sprawia, że przy planowaniu ciągłości działania i disaster recovery trzeba pilnować mniejszej liczby urządzeń fizycznych, zmniejsza rozmiar data center, wprowadza bardzo łatwe i skuteczne przełączenie do rezerwowego ośrodka w przypadku awarii.

Chmura – przenosi odpowiedzialność za zachowanie ciągłości działania na dostawcę, co może być zaletą i ryzykiem jednocześnie. Należy precyzyjnie opracować umowy określające wymagania odnośnie do świadczonych usług. Poważną niedogodnością jest skomplikowane testowanie planów awaryjnych przy wykorzystaniu różnych dostawców.

Technologie mobilne – potencjalnie ułatwiają komunikację kryzysową oraz lokalizację pracowników.

Sieci społecznościowe – ułatwiają komunikację nie tylko z pracownikami, ale także szeroko rozumianą resztą świata.

Krótkie, dobre rady

Evolve IP, operator hostingowy, świadczący usługi chmurowe, przedstawia listę sugestii, które warto przedstawić szefom działów przy planowaniu ciągłości działania i odtwarzania poawaryjnego.

Wprowadzić grupę roboczą, która będzie się zajmować tematem disaster recovery i ciągłością działania we wszystkich lokalizacjach.

Przeprowadzić ocenę ryzyka w następujących obszarach:

- Informacja – które informacje i systemy ją przetwarzające są najważniejsze dla zachowania ciągłości biznesu na akceptowalnym poziomie?

- Infrastruktura komunikacji – które narzędzia (poczta elektroniczna, linie telefoniczne, centra obsługi telefonicznej, łącza wirtualnych sieci prywatnych, usługi terminalowe) są najważniejsze do obsługi biznesu na akceptowalnym poziomie?

- Dostęp i uwierzytelnienie – kto musi mieć dostęp do powyższych systemów, jaką drogą i w jaki sposób zachować bezpieczeństwo (VPN, SSL, lokalizacja awaryjna) w przypadku katastrofy?

- Fizyczne środowisko pracy – co jest niezbędne, by prowadzić działalność, jeśli główna lokalizacja nie będzie dostępna?

- Wewnętrzna i zewnętrzna komunikacja – z kim się należy kontaktować w przypadku powstania sytuacji kryzysowej, jaką informację przekazać i jakiej informacji oczekiwać?

Korzystanie z data center i aplikacji w modelu chmurowym – opracować zapisany plan odtwarzania, wszystkie zasoby hostować zdalnie w bezpiecznym i redundantnym data center. Zaplanować i przeprowadzić testy przynajmniej raz do roku. Upewnić się, że pracownicy mogą uzyskać dostęp do hostowanego środowiska (zarówno z firmowych zasobów, jak i zdalnie) z rezerwowego miejsca, także po przejściu na pracę w warunkach kryzysowych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200