Macierz 120 PB firmy IBM

IBM wybudował największe repozytorium danych na świecie - dysponuje ono pojemnością 120 PB.

Najnowsze repozytorium danych jest 10 razy większe od wszystkich, które dotąd wybudowano i wykorzystuje 200 tys. konwencjonalnych mechanicznych dysków twardych. Zadaniem tej olbrzymiej będzie składowanie około 1 bln plików na potrzeby lepszej symulacji działania złożonych systemów obliczeniowych, takich jak te wykorzystywane do modelowania pogody i zmian klimatycznych.

120 petabajtów może przechować 24 mld typowych plików MP3 (5 MB każdy) lub bez większych problemów zmieścić 60 kopii największego internetowego archiwum - WayBack Machine, które przechowuje 150 mld stron WWW. Same metadane plików (nazwy, typy, atrybuty, daty i inne informacje) zajmują około 2 PB.

Technologia opracowana pod kątem tak dużego repozytorium danych będzie przydatna w przyszłości do standardowych zastosowań komercyjnych, na przykład przy usługach przetwarzania w modelu cloud computing.

Największe obecnie wykorzystywane systemy składowania danych osiągają pojemność około 15 PB i są używane do pracy superkomputerów, które obliczają złożone problemy związane z prognozowaniem pogody, analizą danych sejsmicznych na potrzeby konsorcjów wydobywających ropę naftową, a także przy badaniach molekularnych genomów lub białek.

Aby osiągnąć tak dużą pojemność, niezbędne było zaprojektowanie nowego sprzętu. W celu minimalizowania rozmiarów urządzenia dyski przechowuje się w szufladach, które wysuwane są ze specjalnie opracowanych szaf. Ponieważ napędy mechaniczne generują dużo ciepła, przy tej gęstości upakowania niezbędne było zastosowanie chłodzenia cieczą płynącą w wymuszonym obiegu. W szufladach musi się zmieścić także mechanizm chłodzenia dysków, zatem szafy są szersze od typowego standardu przemysłowego.

Przy tak dużej liczbie dysków awarie napędów będą się zdarzać dość często. Ochronę danym ma zapewnić rozproszenie i redundancja informacji, ale opracowano także nową technologię, która umożliwi pracę superkomputera niemal z pełną wydajnością, nawet w przypadku awarii dysku w macierzy. Gdy dysk ulegnie awarii, kopie danych znajdujące się na innych urządzeniach będą z nich inteligentnie i powoli pobierane w taki sposób, by minimalizować spadek wydajności. Przy większej liczbie awarii dysków proces kopiowania danych zostaje przyspieszony, by minimalizować wpływ ewentualnej następnej awarii. Według specjalistów z firmy IBM, system ten powinien działać w bardzo długiej perspektywie czasowej bez żadnej utraty danych czy spadku wydajności.

Wykorzystywanym systemem plików jest GPFS, który potrafi zapisywać i odczytywać równolegle fragmenty pliku z różnych urządzeń i śledzi pliki bez konieczności skanowania każdego z nich. Podczas testów zaindeksowanie 10 mld plików za pomocą GPFS trwało 43 minuty. Ponieważ dyski nie stają się szybsze lub bardziej niezawodne proporcjonalnie do wzrostu zapotrzebowania na przestrzeń dyskową, różnicę tę musi nadrobić inteligentne oprogramowanie.


TOP 200