Człowiek - najsłabsze ogniwo w centrum danych

W centrach danych nierzadko zdarzają się przestoje spowodowane nie awarią sprzętu, oprogramowania czy katastrofą (pożar, powódź, brak zasilania) - a błędem człowieka. Jak podaje Uptime Institute, za blisko 70% wszystkich problemów występujących w data centers odpowiada właśnie człowiek, który popełnia nieraz proste błędy, kosztujące jednak firmę bardzo dużo.

Każdy przestój w centrum danych przynosi wymierne straty. Uptime Institute (firma analityczna zajmująca się badaniem centrów danych) zebrała dane o 4500 awarii, w tym 400 takich, które spowodowały zatrzymanie pracy całego data center na kilka godzin. Wszystkie przypadki dokładnie przeanalizowano, żeby następnie wyciągnąć odpowiednie wnioski i sformułować zalecenia, pomagające zapobiegać powstawaniu awaryjnych sytuacji.

I chociaż człowiek często zawodzi, to jedno jest w tym wszystkim optymistyczne. Istnieje duża szansa na to, że po odpowiednim przeszkoleniu personelu obsługującego centrum (i powtarzaniu takich szkoleń cyklicznie co jakiś czas), przypadki takie można znacznie ograniczyć.

Zobacz również:

  • Wielka inwestycja Atmana w przetwarzanie danych
  • Polcom - jeszcze więcej środków na inwestycje
  • Wyjaśniamy czym jest SD-WAN i jakie są zalety tego rozwiązania

Katalog błędów

Pierwszy przykład. Przełącznik pracujący w centrum danych odmawia nagle posłuszeństwa - jest kompletnie zablokowany i tak przeciążony, że odrzuca wszystkie kierowane do niego pakiety. Okazało się, że awarię spowodował jeden z pracowników działu IT.

Człowiek - najsłabsze ogniwo w centrum danych
Nie wdając się w szczegóły, podłączył on przez pomyłkę (podczas instalowania dodatkowego węzła sieci, co miało zwiększyć przepustowość określonego połączenia) jeden z kabli światłowodowych w niewłaściwe miejsce. I to w taki nieszczęśliwy sposób, że pakiety zaczęły krążyć po zamkniętej pętli, blokując na dobre przełącznik, co unieruchomiło w praktyce całą sieć LAN.

Drugi przykład. pewnego dnia uszkodzeniu ulega dysk twardy zainstalowany w serwerze, który zbiera w trybie on-line informacje o transakcjach. Pracownik kupił następnego dnia nowy dysk, zainstalował go, uruchomił na nim system operacyjny Windows i oprogramowanie SQL Server, a następnie przetestował cały system sprawdzając, czy przechwytuje i zapisuje transakcje, oraz czy archiwizuje dane.

Jednak kolejnego dnia rano, gdy serwer włączono do produkcji i wgrano do jego pamięci dane archiwalne przechowywane na taśmie, okazało się, że dane te zniknęły. W pamięci serwera znajdywały się wyłącznie dane o transakcjach wykonywanych podczas testowania systemu.

Człowiek - najsłabsze ogniwo w centrum danych
Ponieważ w firmie dostępna była tylko jedna taśma, używana codziennie do wykonywania pełnego back-up'u danych, pracownik podczas testowania systemu użył właśnie tej taśmy (ponieważ innej nie było), wymazując z niej wtedy wszystkie dane archiwalne i zapisując tylko transakcje prowadzone w tym jednym dniu. Gdyby w firmie były co najmniej dwie taśmy, problemu by nie było. Oszczędność kilkuset złotych i błąd człowieka spowodowały, że firma poniosła określone straty.

A oto kilka innych błędów człowieka, których skutkiem były przestoje centrum danych.

* Osoba nadzorująca pracę klimatyzatora jednym nieostrożnym ruchem doprowadza do wycieku freonu, który nie dość, że zalewa i "zamraża" serwery zainstalowane w szafie, ale powoduje, że całe centrum danych trzeba na jakiś czas ewakuować.

* Centrum danych obsługujące uniwersytet zostało unieruchomione po tym, gdy administrator zainstalował w nim nieprzetestowany do końca, napisany przez siebie program do wykonywania kopii zapasowych danych, który na dodatek spowodował utratę wszystkich informacji gromadzonych przez ostatnie pięć miesięcy.

* Serwery pracujące w centrum przestały działać po tym, gdy w szafie zapanował mróz. I to pomimo tego, że termostat został ustawiony na 25 stopni. Powód - ktoś przez nieuwagę zmienił ustawienie na termostacie, wciskając opcję Fahrenheit zamiast Celsjusz.

Jak zapobiegać błędom popełnianym przez człowieka?

Jak już wspomniano na początku, w połowie tego roku Uptime Institute opublikował dokument zawierający szereg zaleceń, które pozwalają zwiększyć niezawodność pracy centrów danych. Można wśród nich znaleźć zarówno szczegółowe porady techniczne, jak i takie, które zapobiegają błędom popełnianym przez pracownika.

Dokument o nazwie Data Center Site Tier Standard: Operational Sustainability zawiera spis porad oraz najlepszych praktyk, dzięki którym przestoje w pracy centrum danych można ograniczyć do minimum. Dokument koncentruje się na czterech podstawowych zagadnieniach, z którymi powinny się zapoznać osoby zarządzające centrum danych.

Po pierwsze, odpowiednia kadra. I nie chodzi tu tylko o zatrudnienie odpowiedniej liczby osób, ale o to, że ma to być wykwalifikowana i przeszkolona załoga, zdolna podejmować trafne decyzje, dzięki którym centrum pracuje wydajnie i niezawodnie. Dokument zaleca na przykład, aby w profesjonalnych centrach danych dyżurowało przez 24 godziny na dobę i siedem dni w tygodniu dwóch zatrudnionych na całym etacie operatorów.

Po drugie, osoby zarządzające centrum danych powinny podejmować zawsze właściwe decyzje, biorąc pod uwagę wszystkie aspekty pracy centrum. Dotyczy to takich zagadnień, jak prowadzenie bieżących prac konserwatorskich, porządkowych czy innych, zapewniających centrum ciągłość pracy.

Bardzo ważne są szkolenia. Pracownicy, którzy są w stanie reagować we właściwy sposób na różnego rodzaju zagrożenia, mogą się walnie przyczynić do zmniejszenia do niezbędnego minimum czasu przestoju centrum czy też jego poszczególnych części. Dlatego firma nie powinna oszczędzać na szkoleniach i prowadzić je regularnie, wydając przy okazji pracownikom odpowiednie certyfikaty, dające gwarancję, że będą oni zawsze reagować szybko i we właściwy sposób.

Jeśli chodzi o planowanie, koordynację i zarządzanie centrum danych, dokument zaleca, aby menedżerowie opracowywali zawczasu odpowiednie procedury postępowania, korzystali z narzędzi pozwalających kontrolować pobór mocy oraz prace urządzeń chłodzących centrum danych, a także korzystali z usług bibliotek ITIL (Information Technology Infrastructure Library).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200