Mitologia awaryjności dysków

Wyniki masowych badań stawiają pod znakiem zapytania powszechne opinie o niezawodności dysków SATA, SCSI i FC.

Wyniki masowych badań stawiają pod znakiem zapytania powszechne opinie o niezawodności dysków SATA, SCSI i FC.

Dyski SATA HITACHI DESKSTAR 7K1000 mają pojemność 1000 GB

Dyski SATA HITACHI DESKSTAR 7K1000 mają pojemność 1000 GB

Dyski SATA potrafią być tak samo niezawodne jak Fibre Channel lub SCSI, technologia RAID 5 nie gwarantuje bezpieczeństwa danych, a podawany przez producentów parametr MTBF nie znaczy praktycznie nic. Takie są wnioski z wyników analiz przeprowadzonych na bardzo dużej próbie dysków i opublikowanych ostatnio przez dwie niezależne grupy badawcze.

Dysk to jeden z najważniejszych i najbardziej strategicznych komponentów każdego komputera, a jednocześnie uważany za element najbardziej awaryjny. Wśród użytkowników krąży wiele mitów dotyczących bezpieczeństwa napędów dyskowych - jak wynika z praktycznych badań są one często niesłuszne i nieuzasadnione.

Ostatnio podczas konferencji FAST '07 opublikowano dwa raporty prezentujące wyniki analiz bezpieczeństwa i awaryjności dysków. Jeden powstał na podstawie badań setek tysięcy napędów w Google'a, drugi przygotowali naukowcy z Departamentu Nauk Komputerowych Uniwersytetu Carnegie Mellon.

Tysiące dysków Google

Pracownicy centrów danych firmy Google zauważyli, że jak do tej pory dostępnych jest wyjątkowo mało niezależnych statystyk dotyczących awaryjności dysków, a te które są, pochodzą głównie od producentów napędów i bazują na procedurach estymacji niezawodności opartych na wynikach badań bardzo małej liczby dysków. W efekcie Google postanowił opracować własne procedury i uruchomić zakrojony na szeroką skalę program badawczy. Objęto nim ponad sto tysięcy konsumenckich dysków ATA i Serial ATA o prędkościach 5400 i 7200 obr./min oraz pojemnościach od 80 do 400 GB. Aby zebrane dane były porównywalne, Google zbudował specjalną infrastrukturę umożliwiającą pobieranie informacji o stanie twardych dysków z każdego systemu co kilka minut i zapisywanie ich w bazie danych w celu późniejszej analizy.

W jej wyniku stwierdzono, że już w ciągu pierwszego roku pracy uszkodzeniu ulega 1,7% napędów, natomiast w trzecim roku - aż 8,6%.

Szczególną uwagę poświęcono analizie wbudowanego w firmware dysków mechanizmu SMART (Self-Monitoring, Analysis and Reporting Technology), który z założenia umożliwia automatyczną diagnostykę napędów przez analizę niektórych parametrów pracy, jak częstotliwość pojawiania się błędów, czasu rozruchu itd. Gdy wystąpią problemy, oprogramowanie alarmuje użytkownika o prawdopodobieństwie awarii dysku w niedalekiej przyszłości.

Wyniki analiz danych dostarczonych przez SMART w porównaniu z rzeczywistymi awariami dysków pokazały, że skuteczność tej metody może pozostawiać wiele do życzenia. Okazało się, że wbrew powszechnej opinii, na żywotność dysku praktycznie nie ma wpływu podwyższona temperatura środowiska pracy lub stopień jego obciążenia. Choć informacje o prawdopodobieństwie wystąpienia awarii generowane przez mechanizm SMART rzeczywiście poprzedzają zbliżającą się awarię, to jednocześnie 56% spośród dysków, które uległy awarii, nie wygenerowało żadnych komunikatów SMART, a w wypadku 36% uszkodzonych dysków nie udało się ustalić jakiejkolwiek przyczyny za pomocą SMART.

Ogólny wniosek z tych analiz jest jeden - SMART nie może być jedynym mechanizmem pozwalającym administratorom na przewidywanie wystąpienia awarii pojedynczych dysków. Zdaniem badaczy warto zwracać uwagę także na spadek wydajności napędów oraz anomalie pojawiające się w aplikacjach - problemy, za które często obwiniany jest np. system operacyjny, spowodowane są postępującą degradacją dysków.

Z dyskami jest nie tak,jak myślicie...

... uważają naukowcy z Departamentu Nauk Komputerowych Uniwersytetu Carnegie Mellon, którzy także zajęli się analizą statystyczną poprawności pracy napędów. Podobnie jak w przypadku Google'a, badaniu poddano aż 100 tys. dysków, chociaż już nie w tak masowy sposób (badanie objęło tylko kilka odrębnych centrów przetwarzania danych).

Podstawowe wyniki analiz wskazują, że w przypadku nowych dysków rzeczywisty czas MTBF (średni czas do wystąpienia awarii) jest 3-, 4-krotnie krótszy od nominalnego, a w przypadku napędów wyprodukowanych 5-8 lat temu aż 30-krotnie. Awarii często ulegały napędy młodsze niż 3 lata, a więc w okresie, kiedy teoretycznie powinny pracować praktycznie niezawodnie. Warto wspomnieć też, że nie zauważono znaczących dysproporcji pomiędzy awariami konsumenckich dysków Serial ATA, a uważanych za profesjonalne Fibre Channel i SCSI. Oprócz tego okazuje się, że po pierwszym roku od uruchomienia dyski nie wchodzą w stabilny i bezawaryjny okres pracy, a ich awaryjność rośnie praktycznie z roku na rok.

No i kamyczek do ogródka systemów RAID. O tym, że zabezpieczenie w technologii RAID 5 (jeden dysk nadmiarowy, dzięki któremu można odzyskać dane w wyniku awarii dowolnego dysku w macierzy) jest niewystarczające, producenci mówią już od dość dawna. Badania tylko to potwierdzają. Przy wykorzystaniu dostępnych dziś dysków o bardzo dużej pojemności, w razie awarii jednego z nich, odbudowanie struktury zabiera coraz więcej czasu. Powoduje to znaczny wzrost prawdopodobieństwa uszkodzenia drugiego dysku w trakcie tej operacji, a w efekcie odcięcie możliwości odzyskania danych z macierzy.


TOP 200