Skala na szali

W systemie Terragrid nie jest wymagany żaden scentralizowany kontroler dbający o spójność danych i metadanych. Blokowaniem zapisów i spójnością na poziomie bloków rządzą sterowniki kart sieciowych dostarczane przez Terrascale. Informacje o lokalnych zapisach są rozsyłane w sieci w postaci niewielkich plików w trybie multicast. Tym samym zostaje zlikwidowane główne wąskie gardło - ograniczone możliwości skalowania kontrolerów.

Zapisem danych na węzłach docelowych i ich komunikacją z węzłami inicjującymi zarządza dedykowana usługa. Do fizycznego zapisu są wykorzystywane lokalne dyski węzłów docelowych. Według producenta Terragrid skaluje się obecnie do 256 węzłów docelowych, co powinno zaspokoić apetyt bez mała każdej firmy. Wielką skalę i niezawodność można osiągnąć, instalując w każdym węźle docelowym dwa dyski i programowy sterownik RAID.

Można też uciec się do kontrolera sprzętowego i załadować węzeł większą liczbą dysków (np. 5 x 300 GB + RAID 5). Pozwoli to osiągnąć skalowalność i wydajność przekraczającą osiągi macierzy klasy średniej, a nawet sięgnąć klasy wyższej. Jeżeli przy tym węzeł będzie dysponować dużą pamięcią RAM, zarówno zapis, jak i odczyt danych może być naprawdę szybki.

Archiwum bez dna

Rozproszone rozwiązanie do przechowywania dużych ilości danych ma w ofercie HP. RISS (Reference Information Storage System) to system archiwizacji danych przejęty w 2003 r. wraz z firmą Persist Technologies - głównie dla jej doświadczenia w dziedzinie archiwizacji poczty elektronicznej. Ostatnio HP przedstawiło odświeżoną wersję rozwiązania, zapewniającą większą pojemność i wydajność oraz archiwizującą - oprócz poczty - także pliki w popularnych formatach.

Elementami rozproszonego systemu są serwery kasetowe (blade) z procesorami x86. Każdy z nich zawiera do 3 dysków o łącznej użytecznej pojemności do 850 GB. RISS nie jest jednak pozycjonowany jako tanie repozytorium dla dużej ilości danych, lecz jako efektywne rozwiązanie potencjalnie kosztownego problemu. Mianowicie, RISS pozwala firmom w wygodny sposób za jednym zamachem pozbyć się problemu obowiązkowej archiwizacji korespondencji i dokumentów, które mogą w przyszłości posłużyć jako dowód w sądzie.

Za tą wygodą kryje się oczywiście dobrze zaprojektowana architektura, w skład której wchodzą nie tylko serwery służące stricte do przechowywania danych, ale także serwery, których rolą jest indeksowanie danych i replikacja indeksów pomiędzy węzłami, by awaria jednego z nich nie prowadziła do załamania się całości systemu. Dla podwyższenia dostępności również dane przechowywane są jednocześnie na co najmniej dwóch fizycznie oddzielnych węzłach, a dodatkowo dane mogą być replikowane do odległej lokalizacji.

Skala dla wymagających

Nawet jeśli opisywane wyżej architektury wydają się "zbyt przyszłościowe", istnieje możliwość poprawienia skalowalności zbiorów danych bez zasadniczej zmiany istniejącej infrastruktury. Interesującą propozycją dla firm, które duże wolumeny danych muszą udostępniać użytkownikom z dużą wydajnością, jest rozwiązanie opracowane przez firmę PolyServe. Matrix Server to synchroniczny klastrowy system plików, pozwalający połączyć do 16 niezależnych węzłów, tak by z punktu widzenia aplikacji stanowiły jeden system.

Szesnaście węzłów w trybie synchronicznym - to brzmi dumnie. Zakładając, że w realistycznym scenariuszu wykorzystane zostanie osiem węzłów, wciąż jest to rozwiązanie godne uwagi. Matrix Server został certyfikowany m.in. dla serwerów baz danych Oracle (8, 8i, 9i), IBM DB2, serwerów aplikacji BEA WebLogic, IBM Web-Sphere, Oracle RAC (9i), oprogramowania backupowego Veritas NetBackup oraz popularnych usług sieciowych, jak NFS czy FTP. Matrix Server został ostatnio doceniony przez Novella, który oferuje go razem z Suse Enterprise Linux.

Wydajność, rzecz względna

Obiecująco wygląda także opracowany przez firmę Montilio sprzętowy akcelerator CIFS/NFS w formie karty rozszerzeń do serwerów plików. Instalowana w 64-bitowym gnieździe PCI-X karta RapidFile zawiera 2 porty Gigabit Ethernet i 2 porty Fibre Channel. Jej zadaniem jest przechwytywanie wywołań dostępu do plików, ich sprzętowo wspomagane przetwarzanie i komunikacja z systemami pamięci masowych. Przy okazji karta zawiera akcelerator TCP, co całkowicie uwalnia procesor serwera plików od przetwarzania strumieni danych.

Nie trzeba dodawać, że pojedynczy serwer zyskuje w ten sposób możliwość obsłużenia znacznie większej liczby zapytań, jego główne procesory mogą się zająć jedynie przetwarzaniem pobocznych metadanych, zarządzaniem buforem danych w pamięci RAM i na lokalnych dyskach. Według producenta RapidFile pozwala osiągać przyspieszenie serwowania plików rzędu od 3 do 6 razy, bez wprowadzania do infrastruktury nowych serwerów. Te kilkaset dolarów może oszczędzić firmie poważnych inwestycji w nowy sprzęt, przedłużając żywot tego już zainstalowanego.

Ethernet SAN to nie bajka

Architektura zaproponowana przez Coraid ma spore szanse powodzenia, ponieważ rozwiązuje wiele problemów jednocześnie. Nie ona jednak jedyna. Rozwiązanie o architekturze podobnej do tego co Coraid oferuje opisywana już przez nas w CW 3/2005 firma Zetera. Różnica polega na tym, że rozwiązanie Zetera sprowadza się do zainstalowania w przełączniku Ethernet kontrolera, który dane pobierane z dysku w formie blokowej opakowuje w ramki Ethernet i przesyła do komputera/serwera i odwrotnie. Kontroler współpracuje z dowolnymi dyskami, zapewniając funkcjonalność RAID, równoważenie obciążeń itp.

Sieci SAN budowane za pomocą rozwiązań Coraid i Zetera wyglądałyby nieco inaczej w poszczególnych warstwach, niemniej ostatecznie ich funkcjonalność byłaby podobna. Skalowanie wydajności I/O w przypadku rozwiązania Zetera polega na dodaniu kolejnego przełącznika z kontrolerem, zaś w przypadku Coraid - kolejnych kaset zawierających jednocześnie kontroler i dysk.


TOP 200