Jak doszło do awarii w Beyond

Kłopoty z zasilaniem w firmie Beyond.pl doprowadziły do największej awarii usług w chmurze w Polsce. Problem odczuły m.in. Allegro i Wykop.pl.

Naprawa pod napięciem

Wymianę i naprawę urządzeń energetycznych niskiego i średniego napięcia zazwyczaj przeprowadza się przy planowym wyłączeniu obiektów na czas konserwacji. Chociaż przepisy dopuszczają prowadzenie niektórych napraw pod napięciem, wymagane są do tego celu odpowiednie uprawnienia pracowników (uprawnienia PPN) i właściwe wyposażenie, ponadto muszą być zachowane przewidziane procedury, które zapewnią bezpieczeństwo personelu. W przypadku typowych obiektów energetycznych tańszym rozwiązaniem jest wyłączenie zasilania i przeprowadzenie koniecznych prac w zwykły sposób.

Jednym z podstawowych elementów wyposażenia każdej serwerowni jest system zasilania gwarantowanego, którego zadaniem jest dostarczenie energii elektrycznej niezależnie od warunków zewnętrznych. Zazwyczaj w instalacji o większej skali składa się on z dwóch przyłączy energetycznych średniego napięcia, transformatorów dostarczających napięcie trójfazowe 400 V 50 Hz, urządzeń przełączających, rezerwowego generatora z silnikiem diesla oraz awaryjnych z baterią stacjonarnych akumulatorów kwasowych. Taki system jest powszechnie stosowany w różnych obiektach, gdyż przy zastosowaniu automatyki zapewnia wysoką niezawodność dostarczania energii. Co pewien czas każda firma testuje sprawność systemu, przeprowadzając próbne odłączenie zasilania z sieci energetycznej. Poprawne działanie systemu w przypadku zaniku napięcia oznacza automatyczne przejście na podtrzymanie z awaryjnych (zasilanych z akumulatorów), samoczynne uruchomienie generatora prądotwórczego, synchronizację i ustalenie pracy alternatora, a następnie przełączenie na zasilanie z agregatu. Zasilanie z generatora prądotwórczego umożliwia ładowanie akumulatorów zasilaczy awaryjnych oraz przetrwanie zaniku napięcia przez praktycznie dowolny czas, zależny jedynie od pojemności zbiorników paliwa oraz procedury eksploatacji generatora.

Próba, która wywołała katastrofę

Awaria w Beyond.pl zdarzyła się podczas testu procedur i urządzeń zasilania gwarantowanego. 4 czerwca o godzinie 7.08 odłączono zasilanie zewnętrzne, co spowodowało automatyczne uruchomienie generatora. W tym czasie zasilanie komputerów zapewniały zasilacze awaryjne. Pięć minut później automatyka zgłosiła nieprawidłowy stan jednej z dwóch linii, które dostarczają prąd do zasilaczy awaryjnych UPS. Ponieważ takie uszkodzenie powoduje ryzyko pojawienia się pojedynczego punktu awarii, podjęto decyzję o przerwaniu testu.

Osiem minut później załączono zasilanie zewnętrzne, ale zaraz potem nastąpiła awaria automatyki sterującej. Agregat został odłączony, ale nie udało się włączyć zasilania zewnętrznego. Wyłączniki obsługujące zasilanie z sieci energetycznej zgłosiły błąd, sygnalizując możliwość załączenia zasilania tylko na jedną fazę. Zasilanie serwerowni zapewniały nadal zasilacze awaryjne.

Dyżurny energetyk zadecydował o wyłączeniu automatyki i podjęto próbę ręcznego załączenia zasilania. Próba była nieudana, ze względu na zgłoszenie stanu nieustalonego na jednym z wyłączników zasilania z sieci energetycznej - stan ten powodował duże zagrożenie dla infrastruktury obiektu. Podjęto decyzję o wymianie wadliwego wyłącznika na urządzenie zapasowe, ale nie uruchomiono ponownie generatora prądotwórczego, serwerownia była podtrzymywana jedynie za pomocą energii elektrycznej zgromadzonej w akumulatorach zasilaczy UPS. O godzinie 7.30 rozpoczęła się wymiana wyłącznika, a tych prac nie można zrealizować pod napięciem - nie można było zatem podać zasilania na rozdzielnie elektryczne. Pięć minut później skończył się zapas energii w akumulatorach zasilaczy awaryjnych. Dokumentacja techniczna zasilaczy awaryjnych przewidywała czas pracy na bateriach na 25 minut. W rzeczywistości baterie wystarczyły tylko na 15 minut.

Prace związane z wymianą wyłącznika zakończyły się o godzinie 7.50. Po ręcznym uruchomieniu zasilania rozpoczęto przywracanie sprawności systemów.

Jak informuje Michał Grzybkowski, prezes zarządu Beyond.pl: "W tym konkretnym przypadku przyczyną przerwy w dostępności zasilania był fatalny zbieg okoliczności: nałożenie się sytuacji awaryjnych w kluczowych punktach instalacji. Były nimi awarie układu automatycznego sterowania rozdzielniami elektrycznymi oraz uszkodzenie jednego z głównych wyłączników układu SZR, a także nieprecyzyjne dane na temat czasu pracy na bateriach. Dodatkowo na przebieg awarii wpłynął czynnik ludzki, gdyż tak skomplikowany jej przebieg zwiększył poziom stresu, a to wpłynęło na szybkość podejmowania decyzji".

Nie wszystko poprawnie wstało

Z usług firmy Beyond.pl korzystają takie firmy jak: Allegro, PayU, MediaMarkt czy Wykop. Beyond świadczy także usługi chmury publicznej - e24cloud. Awaria zasilania spowodowała przerwę w pracy wszystkich serwisów hostowanych z danej lokalizacji, a zatem zarówno chmury prywatnej dla firm, jak i publicznej. Należy jednak zauważyć, że chmury prywatne firm hostowane są w ramach innej umowy serwisowej niż chmura publiczna - zastosowane tam zabezpieczenia wystarczyły, by odtworzyć sprawność firmowych serwisów w ciągu mniej niż dwóch godzin. Tymczasem chmura publiczna była niedostępna przez około dobę. Nie udało się od razu odtworzyć wszystkich danych klientów tej usługi. Proces trwał dłużej, ale ostatecznie został zakończony, to znaczy odzyskano komplet informacji. Według Michała Romanowskiego z Beyond.pl, awaria związana z utratą danych chmury publicznej była czysto programowa, nie uległ uszkodzeniu sprzęt.

Michał Romanowski, menedżer ds. marketingu w firmie Beyond.pl, wyjaśnia: "Dyski nie zostały uszkodzone fizycznie, awaria objęła oprogramowanie, które nie mogło odtworzyć zapisanej na dyskach informacji. Cała praca nad dotyczyła sposobu wyciągnięcia danych ze sprawnych dysków: my te dyski widzieliśmy w narzędziach do zarządzania, ale nie mogliśmy wydobyć informacji. Ostatecznie odzyskaliśmy 100% danych, w tym także informacje składowane przez klientów usług chmury publicznej".

Uruchomienie środowiska produkcyjnego chmury publicznej trwało około doby, ale nie zawierało ono kompletu informacji użytkowników. Dane udało się szybko odtworzyć dla klientów, którzy wykupili usługę backupu (kosztowała 2 zł miesięcznie za 1 GB danych). Ci klienci szybko odzyskali swoje informacje, gdyż procedura odtwarzania danych z backupu zadziałała poprawnie, a środowisko backupowe nie zostało uszkodzone. Aby odzyskać resztę danych dla około 60% klientów e24cloud, którzy nie przeprowadzali backupu w ogóle, ani samodzielnie, ani przez serwis Beyond.pl, przeprowadzano skomplikowaną procedurę odtwarzania informacji z uszkodzonych struktur na wielu dyskach.

Systemy energetyczne zawsze są narażone na zakłócenia spowodowane poważnymi zdarzeniami losowymi, przykładem może być awaria zasilania 7 sierpnia 2011 r., która wyłączyła serwerownię firmy Amazon zlokalizowaną pod Dublinem. W przypadku Beyond.pl łańcuch zdarzeń był całkowitym zaskoczeniem, gdyż nastąpiło coś, na co organizacja nie była przygotowana. Nikt nie podejrzewał jednoczesnej awarii automatyki przemysłowej oraz wyłącznika, nie opracowywano zatem procedur umożliwiających przejście na całkowicie ręczne sterowanie zasilaniem. Obecnie rozdzielnia została doposażona we wskaźniki napięcia na poszczególnych elementach, nowe wyłączniki można o wiele łatwiej wymienić.

Chmura bez gwarancji

Usługodawcy świadczący usługi chmury publicznej zazwyczaj nie walczą o dane z uszkodzonych struktur RAID czy dysków z serwisów cloud computing. W przypadku RackSpace lub Amazon chroniona jest tylko zawartość, dla której świadczy się usługę backupu lub użytkownik realizuje taką kopię samodzielnie. To samo dotyczyło chmury publicznej e24cloud, co zresztą podkreśla regulamin usługi. Użytkownicy muszą mieć świadomość, że dostawca chmury publicznej nie będzie szczegółowo dbać o dane użytkownika hostowane w takim serwisie, a obowiązek zapewnienia kopii bezpieczeństwa w najtańszym modelu usługi spada na użytkownika.


TOP 200