Jak zapanować nad eksplozją nieustrukturyzowanych danych

Największe współczesne biblioteki to już nie długie, ciemne labirynty pomieszczeń, w których na ciągnących się kilometrami półkach znajdują się niezliczone ilości ksiąg, dokumentów i map. Dzisiaj punkt ciężkości przesuwa się w kierunku zbiorów cyfrowych. W tej sytuacji kluczowego znaczenia nabierają efektywne technicznie i ekonomicznie a zarazem bezpieczne rozwiązania do przechowywania coraz większych ilości nieustrukturyzowanych danych.

Sukces cyfrowej transformacji Narodowej Biblioteki Szkocji opiera się na oferowanym przez HPE kompletnym rozwiązaniu Scality RING, które umożliwiło szybką budowę lokalnej obiektowej pamięci masowej w postaci skalowalnych horyzontalnie klastrów z interfejsem API S3.

Biblioteka Narodowa Szkocji (National Library of Scotland, NLS) powstała pod koniec XVII wieku. Przechowuje m.in. prawdziwe skarby takie jak pierwsza drukowana książka w Europie, czyli jedna z 20 istniejących na świecie pełnych kopii Biblii Gutenberga oraz absolutnie unikalne dokumenty, jak np. ostatni list Marii I Stuart, królowej Szkotów napisany na kilka godzin przed egzekucją. Choć jeszcze w 1925 roku zbiory biblioteki liczyły „ledwie” 750 tys. pozycji, to na początku XXI w. ich liczba przekroczyła już 20 milionów i przyrastała w tempie 5 tys. tygodniowo. W związku z tym do niedawna głównym zmartwieniem było zapewnianie nowych pomieszczeń oraz ogromnych ilości półek, ale kilka lat temu okazało się, że nie to jest już największym wyzwaniem, z jakim trzeba się zmierzyć.

Już 1 czerwca o godzinie 11.00, odbędzie się webinar podczas którego pokażemy jak Scality i HPE pomogły cyfryzować zbiory Biblioteki Narodowej Szkocji, zapewniając łatwą skalowalność na żądanie bez konieczności wymiany infrastruktury. Przyjrzymy się możliwościom i korzyściom oferowanym przez najnowsze rozwiązanie Scality RING. Będziemy dyskutować o jego architekturze, zastosowanych technologiach oraz scenariuszom wykorzystania, które obejmują tworzenie nowych źródeł przychodów.

Rejestracja dostępna pod linkiem: https://www.brighttalk.com/webcast/12517

NLS uruchomiła ambitny program, którego celem jest digitalizacja trzeciej części posiadanych zbiorów do 2025 r. Dotyczy to zarówno pozyskiwanych w coraz większych ilościach nowych cyfrowych wersji książek i prasy oraz równoczesnej, stopniowej digitalizacji zgromadzonych pozycji papierowych a także dźwiękowych i filmowych, które zapisane są na taśmach magnetycznych. Cyfrowe zbiory NLS obejmują także m.in. archiwum webowego Zjednoczonego Królestwa (UK Web Archive), w którym zbierane są każdego roku miliony stron internetowych brytyjskiej przestrzeni domenowej a nawet ulotki wyborcze polityków tworzone masowo przed każdymi wyborami, programy wydarzeń sportowych czy karty egzaminacyjne.

Wszystkie zasoby cyfrowe NLS to dzisiaj zajmują łącznie ponad 5 PB danych. Składa się na nie 5 milionów pozycji, a ich liczba rośnie w tempie 1 miliona rocznie. Dlatego właśnie gromadzenie dokumentów cyfrowych i zarządzanie szybko rosnącym archiwum stało się dla NLS, podobnie jak dla wielu bibliotek i instytucji na całym świecie, głównym wyzwaniem. To z kolei oznaczało, że w ciągu zaledwie kilku lat NLS przekształciła się z instytucji, która korzysta z technologii IT, w organizację, dla której IT stało się podstawowym elementem działalności.

Tradycja kontra nowoczesność

W obliczu nowych wyzwań NLS przyjęła początkowo tradycyjne podejście. Podobnie jak wiele innych organizacji na świecie wybrała sprawdzone rozwiązanie, czyli sieć SAN. Wydawało się, że to rozwiąże problem na wiele lat, jednak szybko okazało się, że sytuacja się zmieniła. SAN, który sprawdzał się jeszcze dekadę temu, dzisiaj wystarczy organizacjom, których tempo przyrostu danych nieustrukturyzowanych jest ograniczone. Tymczasem NLS w bardzo krótkim czasie musiało zakupić kolejną sieć SAN, i kolejną, i kolejną. W ten sposób NLS „dorobiła się” w ciągu kilku lat 7 sieci SAN, które przysparzały kłopotów nie tylko z bieżącym ich utrzymaniem, ale również z praktycznie nieustającą migracją danych z jednej sieci do drugiej. Dodatkowo kopie zapasowe danych przechowywane były na taśmach. Oznaczało to mnóstwo pracy związanej z ich wykonaniem oraz okresowym sprawdzaniem spójności danych, a i tak nikt w organizacji nie był do końca przekonany czy w przypadku poważnej awarii uda się przywrócić wszystkie dane.

Dlatego zaczęto intensywnie poszukiwać alternatywy. Miało ono uwzględniać specyfikę przechowywania zbiorów bibliotecznych: dane rzadko się zmieniają, są rzadko udostępniane (udostępniane są przede wszystkim kopie na szybkich dyskach albo w chmurze) a integralność danych jest ważniejsza niż dostępność. Dodatkowym warunkiem była możliwość posiadania trzech kopii danych i przeniesienia backupów do nowej technologii.

Ostatecznie NLS wybrało rozwiązanie Scality RING zbudowane w oparciu o 12 serwerów HPE Apollo 4510 podzielonych po równo i ulokowanych w dwóch centrach danych. Każdy klaster miał pojemność 2,7 PB danych w każdej lokalizacji i zapewniał gigabitową wydajność. Obydwa działały niezależnie oferując dwie pełne kopie danych i gwarantując pełną redundancję.

Korzyści: oczekiwania kontra rzeczywistość

W tym przypadku rzeczywistość znacznie przerosła oczekiwania. Z punktu widzenia NLS główne zalety rozwiązania to przede wszystkim prosta skalowalność oraz standardowy interfejs API S3. Scality RING może rosnąć odpowiednio do wzrostu potrzeb biznesowych użytkownika. Rozbudowa rozwiązania sprowadza się do dodawania w razie potrzeby dysków i wykonania jednego polecenia albo dodawania kolejnych serwerów, jeśli zapełnią się wszystkie wnęki dyskowe w tych już posiadanych. Nie trzeba zastępować starego sprzętu ani cyklicznie odświeżać technologii. Z kolei API S3 to standardowy interfejs umożliwiający zarządzanie z poziomu jednej konsoli wszystkimi danymi zgromadzonymi zarówno lokalnie jak i w chmurze. Dzięki temu trzecia kopia danych może być w prosty sposób przechowywana w usłudze cloud AWS Glacier Deep Archive.

NLS wdrożyło przy tym zautomatyzowany proces, który działając „w tle” sprawdza integralność danych. Dzięki temu udało się wyeliminować konieczność przeprowadzania dwa razy do roku akcji sprawdzania wszystkich plików pod kątem integralności danych. Skuteczność tego rozwiązania została potwierdzona, kiedy wystąpiła awaria w jednym z centrów danych. Wówczas Scality RING działający w drugim centrum przejął sprawnie wszystkie procesy i zsynchronizował wszystko ponownie po przywróceniu pracy pierwszego centrum.

To jednak nie wszystko. Model licencyjny Scality opiera się na ilości oryginalnych danych obejmowanych ochroną. To z kolei oznacza, że za replikowane dane nie trzeba wnosić dodatkowych opłat, więc NLS zyskało 2 w cenie jednego.

Dzisiaj Scality RING jest wykorzystywany nieco inaczej i znaczenie szerzej niż NLS początkowo planowało. Po uruchomieniu systemu okazało się, że na dostępna jest jeszcze spora przestrzeń na dyskach, więc NLS udało się wycofać z użytku najstarsze sieci SAN. W klastrach Scality przechowywane są również kopie maszyn wirtualnych. Co więcej, wszystko działa tak sprawnie, że NLS zaczęło rozważać oferowanie posiadanego archiwum jako usługi dla innych zainteresowanych instytucji, które stoją w obliczu wyzwań związanych z ogromnym przyrostem nieustrukturyzowanych danych.

Jedno rozwiązanie, jedna faktura, jeden punkt wsparcia

W 2014 r. HPE nawiązało strategiczną współpracę ze Scality i oferuje klientom na całym świecie kompletne rozwiązanie zbudowane w oparciu o oprogramowanie Scality oraz własną infrastrukturę sprzętową, które uzupełniają świadczone lokalnie usługi wsparcia.

Sprzętowym fundamentem Scality RING jest inteligentna platfroma pamięci masowej zaprojektowana z myślą o analityce i tworzeniu kopii zapasowych i archiwizacji danych nieustrukturyzowanych oraz Big Data, czyli serwery HPE Apollo serii 4000.

Istotnym elementem rozwiązania jest także wsparcie techniczne. Dzięki temu klient nie musi martwić się o integrację technologii pochodzących od różnych dostawców. Otrzymuje jedno, kompletne rozwiązanie, jedną fakturę oraz może przez cały czas korzystać z jednego, lokalnego punktu kontaktu dla wsparcia technicznego. HPE zrealizowało kilka wdrożeń rozwiązania Scality u klientów w Polsce.

Jak zapanować nad eksplozją nieustrukturyzowanych danych