Ma działać cały czas

Projektując systemy o wysokiej dostępności, najpierw rozważa się odporność na awarie urządzeń. Zwykle wystarczy optymalizowany backup, ale niekiedy niezbędna jest replikacja do drugiego ośrodka.

Podstawowa ochrona obejmuje zapewnienie ciągłości działania nawet w przypadku awarii w jednym ośrodku. Technologią z wyboru są klastry budowane w obrębie tego samego ośrodka, w przypadku awarii aplikacja pracuje dalej, gdyż usługi są przełączane na drugi węzeł. To samo dotyczy systemów składowania danych. Tomasz Jangas, architekt i konsultant techniczny w Hitachi Data Systems wyjaśnia: „Można zaprojektować środowisko, w którym aplikacja pracująca na serwerze lub klastrze serwerów będzie pisała jednocześnie na dwie macierze. W przypadku awarii jednej z nich, w sposób bezprzerwowy, bez konieczności zamykania aplikacji odbywa się przełączenie na drugą ścieżkę, do drugiego urządzenia storage. Tak zabezpieczamy się przed awarią urządzenia w obrębie jednego ośrodka”.

Zbudowany na tej zasadzie klaster wysokodostępny jest odporny na awarie sprzętu w ośrodku, ale nie zawsze zapewni pracę aplikacji krytycznych w przypadku poważnych zdarzeń losowych.

Dane w dwóch ośrodkach

Walka o milisekundy

O ile w replikacji asynchronicznej opóźnienie na łączu nie ma znaczenia, gdyż potwierdzenie do aplikacji wysyła macierz lokalna, a proces replikacji odbywa się w tle, o tyle w przypadku replikacji synchronicznej aplikacja musi czekać na potwierdzenie zapisu z macierzy zdalnej. Akceptowane opóźnienie wprowadzane przez infrastrukturę lokalną nie przekracza 5 ms, aplikacje takie jak serwer Microsoft Exchange akceptują ok. 17–20 ms, w przypadku obciążonych baz transakcyjnych problemy mogą się pojawić przy opóźnieniach większych niż ok. 10 ms.

Najpoważniejsze skutki dla pracy systemów IT powodują awarie, które wyłączają z działania cały ośrodek obliczeniowy. Takimi zdarzeniami są duże awarie energetyczne (np. długotrwały zanik) lub poważne zdarzenia losowe (m.in. pożar w budynku lub jego okolicy). Aby utrzymać obsługę usług biznesowych nawet w przypadku takich zdarzeń niezbędna jest infrastruktura ochrony przed poważnymi awariami.

Tomasz Jangas mówi: „Do ochrony przed skutkami przestoju całego ośrodka buduje się rozwiązania w architekturze disaster recovery, w której dane odkładane są do drugiego ośrodka znajdującego się w osobnym budynku, w innym mieście, kraju, a nawet na innym kontynencie”.

Przy budowaniu rozwiązań stosujących replikację danych należy wziąć pod uwagę ograniczenia techniczne, korzyści i koszty. Najważniejszym z ograniczeń technicznych jest jakość łącza między ośrodkami, w tym wprowadzane opóźnienia. Parametry łączy determinują możliwość skorzystania z replikacji synchronicznej między ośrodkami, gdyż w replikacji synchronicznej informacja o zakończeniu procesu zapisu jest zwracana do aplikacji dopiero wtedy, gdy proces zapisu zostanie zakończony w obu urządzeniach. Jeśli opóźnienia są zbyt duże, każda transakcja będzie odbywać się wolno, co skutkuje problemami wydajnościowymi. Chociaż można zrealizować replikację silnie obciążonych baz transakcyjnych bez utraty danych nawet do centrów obliczeniowych zlokalizowanych na różnych kontynentach, są to rozwiązania własnościowe, ograniczone do produktów jednego dostawcy.

„Jeśli dopuszczalna jest utrata niewielkiej porcji danych w przypadku poważnej, a zatem mało prawdopodobnej awarii, można zastosować replikację asynchroniczną. W większości instalacji odbywa się to za pomocą mechanizmów macierzy dyskowych, ale wtedy w obu ośrodkach przeważnie znajdują się macierze tego samego producenta. Jeśli nie ma tego komfortu, wtedy zazwyczaj replikację realizuje się, stosując metody serwerowe, narzędzia wirtualizacji albo dedykowane oprogramowanie” – mówi Tomasz Jangas.

Na wybór replikacji wpływają także wymagania biznesowe związane z tymi aplikacjami – dopuszczalna utrata danych w przypadku awarii. Jeśli utrata danych nie jest dopuszczalna z punktu widzenia obsługi biznesu, nawet w przypadku skomplikowanej awarii, jedynym wyjściem jest replikacja synchroniczna. To jednak rozwiązanie najdroższe i obarczone najostrzejszymi ograniczeniami technologicznymi.

Ostatnia linia obrony

Niekiedy jedynym dostępnym rozwiązaniem jest wysoko optymalizowana kopia bezpieczeństwa. Jak stwierdza Tomasz Jangas: „Aby zoptymalizować oraz obniżyć koszty wykonywania kopii bezpieczeństwa, warto przeprowadzić analizę danych przechowywanych w środowisku produkcyjnym. Analiza pozwoli określić, jaka część tych danych jest aktywna, a jaki obszar zawiera tylko dane nieaktywne. Aby skrócić okno backupowe i przyśpieszyć proces odtwarzania danych po ewentualnej awarii, warto zaprojektować magazyn danych lub inaczej – archiwum dla danych nieaktywnych, w taki sposób, aby były one dalej dostępne online, ale znalazły się poza środowiskiem produkcyjnym. Dane te można zabezpieczyć dodatkowo za pomocą narzędzi WORM, a dzięki ich przeniesieniu z systemów produkcyjnych do archiwum skracamy czas tworzenia i odtwarzania kopii oraz dodatkowo obniżamy koszty infrastruktury backupu”.

Zbudowanie podobnego archiwum, w którym dane „zimne” są przechowywane na innym urządzeniu, ułatwia odtwarzanie kopii. W przypadku utraty macierzy produkcyjnej utracone są tylko dane „gorące”, a te można szybko odtworzyć, gdyż jest ich niewiele. Część danych produkcyjnych rezyduje na innym urządzeniu, które pozwala na dostęp online. Dzięki temu nie trzeba ich obejmować podstawowym backupem i nie ulegną utracie w przypadku awarii macierzy obsługującej system produkcyjny.