Góry informacji

Jeśli uważasz, że systemy są trudne w zarządzaniu, pomyśl o bazie, która ma 449 mld obiektów lub o tym, że co tydzień przybywa 40 TB danych. Przedstawiamy świat dużych zbiorów informacji.

Eksplozja danych jest faktem. Produkujemy coraz więcej cyfrowej informacji, którą ktoś musi zarządzać. Wyzwania dotyczą nie tylko samych rozmiarów archiwum, ale także przechowywania olbrzymich plików, przy czym archiwa muszą zapewnić długoterminową dostępność składowanej informacji. Obszar związany z przetwarzaniem dużych ilości danych obfituje w nowe produkty - obojętne, czy to jest Hadoop, MapReduce, NoSQL czy któreś z wielu gotowych rozwiązań sprzętowych, systemów plików i oprogramowania. Mimo to, wyzwaniem nadal pozostaje ilość informacji.

Oznaczyć wszystko tagami

Amerykańska Biblioteka Kongresu przetwarza corocznie 2,5 petabajta danych, co odpowiada około 40 TB tygodniowo. Thomas Youkel, szef grupy inżynierskiej w bibliotece, szacuje, że liczba danych wzrośnie czterokrotnie w ciągu kilku następnych lat. Biblioteka musi je wszystkie przechowywać, by móc potem udostępnić historykom. Dane są składowane na 15-18 tys. dysków magnetycznych połączonych z 600 serwerami w dwóch centrach przetwarzania danych. Ponad 90% danych (więcej niż 3 PB) przechowywanych jest w macierzach połączonych za pomocą SAN, reszta - na zasobach NAS. Aby sprawnie korzystać z tak olbrzymich zasobów, biblioteka kładzie nacisk na metadane. Wszystkie zasoby w kolekcji są otagowane, wliczając w to stare nagrania audio, wideo, fotografie lub inne typy mediów.

Sama treść, do której dostęp zdarza się rzadko, może być sprawnie utrzymywana offline, na taśmie, a na dyskach wystarczy przechować miniaturę lub kopię w niskiej rozdzielczości. Z kolei metadane mogą być przechowywane w osobnym repozytorium, dla szybszego przechowywania. Biblioteka używa dwóch niezależnych systemów - pierwszy z nich składa się z dużej biblioteki taśmowej, na 6 tys. slotów, używającej systemu plików General Parallel File System (GPFS) firmy IBM. System ten korzysta z podobnego podejścia do oznaczania zdjęć w serwisie Flickr - pliki są enkodowane za pomocą algorytmów, które ułatwiają późniejsze przetwarzanie i szybkie odzyskanie informacji. Drugie archiwum zawiera biblioteki taśmowe Oracle/Sun SL8550 (razem 9500 slotów) i korzysta z systemu plików Sun Quick File System (QFS).

Przyjąć, przetworzyć, sprawdzić, wysłać dalej

Biblioteka Kongresu przechowuje obecnie około 500 mln obiektów, ale należy się spodziewać wzrostu ich liczby do około 5 mld. Aby przygotować bazę do tak radykalnego wzrostu, Younkel rozpoczął pracę nad obsługą przestrzeni nazw, niezbędny będzie nowy system plików, który da radę tak dużej ilości obiektów.

Gene Ruth, analityk storage’u w firmie Gartner uważa, że zagadnienie skalowalności jest ważniejsze, niż się powszechnie uważa. W miarę wzrostu rozmiarów obiektów ponad 10 PB, koszty backupu i innej obsługi rosną prawie ekspotencjalnie. Wyjściem jest posiadanie infrastruktury w jednej lokalizacji, która zajmie się przyjmowaniem danych, a następnie przekazującej je do drugiego centrum, gdzie nastąpi długoterminowe przechowywanie.

Podzielić na drobne części

Firma Amazon.com, świadcząca usługi cloud computing, również gromadzi bardzo dużo danych, obecnie jest to około 450 mln obiektów. Niektóre z nich są dość duże, do 5 TB, i mogłyby być samodzielnymi bazami danych. Wzrostowy trend zostanie prawdopodobnie zachowany, Amazon przyznaje, że spodziewa się wzrostu rozmiaru pojedynczych obiektów do 500 TB w roku 2016.

Kluczem do zarządzania tak dużą ilością danych jest podział na drobne porcje w procesie nazywanym zrównolegleniem (parallelization). Na potrzeby usługi składowania danych S3 Amazon korzysta z własnego oprogramowania, które w czasie rzeczywistym dzieli pliki na porcje po 1000 MB każda. Problemem stają się jednak uszkodzone pliki, w przypadku 449 mld obiektów, nawet urządzenia o niskim prawdopodobieństwie błędów powodują okresowo utraty danych. Amazon korzysta z własnego oprogramowania analizującego każdy fragment danych pod kątem złej alokacji pamięci, liczy sumy kontrolne i analizuje, jak szybko można naprawić błąd, by dostarczyć niezbędnej przepustowości.

Polegać na wirtualizacji

Przykładem firmy, która silnie korzysta z wirtualizacji przy składowaniu danych jest Mazda Motor Corp., przechowując 90 TB informacji. Mazda wirtualizuje wszystko, włącznie z zasobami storage, wykorzystując narzędzia firmy Compellent, obecnie przejętej przez Della oraz urządzenia Dell PowerVault NX3100. Wirtualizacja umożliwia o wiele łatwiejsze przenoszenie informacji między zasobami, poziomami składowania danych i urządzeniami.

Środowisko IT tej firmy charakteryzuje się dużą zmiennością wykorzystywania danych. Praktyka pokazała, że aż 80% informacji staje się nieaktualnych już po kilku miesiącach, a to oznacza, że nie notuje się dostępów do tych danych. Zastosowano więc trzy warstwy (tier) - 20% danych obsługują najszybsze dyski SSD połączone za pomocą przełączników FibreChannel, rzadziej wykorzystywane informacje przenoszone są do mechanicznych dysków FC 15 tys. rpm, a najrzadziej dostępne - do tańszych dysków 7200 rpm SAS SCSI. Obecnie coraz mniej danych jest przenoszonych na taśmy, gdyż wdrażany jest inny proces utrzymania ciągłości działania, polegający na replikacji do rezerwowego ośrodka kolokowanego.

Na podstawie: Really big data. The challenges of managing mountains of information by John Brandon - Computerworld, 18.10.2011.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200