Segmentacja zbiorów umożliwia przyspieszenie operacji na danych

W celu uniknięcia strat danych administratorzy sieci najczęściej tworzą kopie zapasowe lub stosują tradycyjne technologie hierarchicznego zarządzania pamięciami.

W celu uniknięcia strat danych administratorzy sieci najczęściej tworzą kopie zapasowe lub stosują tradycyjne technologie hierarchicznego zarządzania pamięciami.

Segmentacja zbiorów umożliwia przyspieszenie operacji na danych

Jak to działa

Chociaż użycie tych technologii do przetwarzania dokumentów tekstowych lub arkuszy kalkulacyjnych nie jest problemem, to duże pliki tworzone na przykład przez aplikacje multimedialne lub wideo, a zwłaszcza ogromne bazy danych mogą łatwo doprowadzić do przeciążenia sieci i zwiększyć czas dostępu podczas zapisywania całych plików do pamięci taśmowych lub dyskowych.

Zabezpieczenie danych w większości systemów hierarchicznego zarządzania pamięcią - HSM (hierarchical storage management) - i w operacjach tworzenia kopii zapasowych wymaga, by kopie te w systemie plików obejmowały wszystkie pliki. W przypadku gdy plik wymaga odnowy (rekonstrukcji) na dysku, to do systemu plików koniecznie trzeba przekopiować cały plik z pamięci pomocniczej.

Segmentacja pliku, czyli możliwość tworzenia kopii zapasowych tylko tych części dużego pliku, które uległy zmianie, pozwala na uniknięcie tego problemu i przyczynia się, podczas utrzymywania bezpieczeństwa i integralności pliku, do zmniejszenia kopii zapasowej i zmniejszenia czasu odnowy z kilku minut do paru sekund.

Aby ocenić, jakie obciążenie sieci wnosi obecność dużych plików, pomocne będzie przyjrzenie się sposobom, jakie administratorzy sieciowi stosowali dotychczas, aby ominąć te ograniczenia. Wielu z nich implementuje redundancyjne macierze niezależnych pamięci taśmowych RAIT (redundant arrays of independent type), co pozwala na fragmentację pojedynczych dużych plików na wiele urządzeń taśm magnetycznych, z zachowaniem równoczesnego dostępu do tych pamięci.

Zwiększenie szybkości uzyskuje się przez zapewnienie równoczesnego zapisywania (i odczytywania) danych przez wiele urządzeń.

Jednak zmiana lub dodanie chociażby jednego bajta do pliku, który jest dzielony pomiędzy macierz sterowników pamięci, wymaga powtórnego zapamiętania całego pliku. Jeśli wszystkie urządzenia tworzące macierz pamięci nie są dostępne jednocześnie, to dostęp do pliku jest niemożliwy. Wynikłe stąd opóźnienia mogą mieć zasadniczy wpływ na wydajność sieci. W sieciach korporacyjnych zwiększenie czasu dostępu do danych może być poważnym problemem dla użytkowników.

Obecne ograniczenie technik tworzenia kopii zapasowych lub tradycyjnych systemów HSM wynika z tego, że użytkownik zazwyczaj musi czekać do momentu przywrócenia całego pliku, zapamiętanego w kopii zapasowej, do systemu plików. Ma to znaczący wpływ na czasy dostępu do sieci i do systemu plików. Na przykład użytkownik musiałby czekać na pierwszy bajt danych z 2-Gbajtowego pliku zlokalizowanego w pamięci taśmowej przeciętnie 10 minut.

Jednak jeśli zbiór rezyduje w systemie plików Unixa, to system ten potrzebuje z dysku tylko tych bloków danych, do których wymagany jest dostęp lub które są modyfikowane. Ponieważ aplikacje sieciowe nie potrzebują czytać całej zawartości pliku, uzyskuje się szybszy dostęp do danych. Nowa technika segmentacji przyjęła zalety systemu plików Unixa, w tym jego możliwości i szybkości obsługi danych w dużych plikach.

Jeśli atrybutem segmentacji jest ustawienie jej nad plikami, katalogami lub całym systemem plików, segmentacja jest stosowana automatycznie na wyborze pliku. Gdy tylko plikowi zostanie przydzielona wielkość segmentu, zostanie on automatycznie podzielony na segmenty. Każdy segment może być zarządzany tak, jak gdyby był pojedynczym plikiem.

Jednak użytkownik sieciowy, posługując się standardowymi poleceniami podobnymi do komend Unixa, może nadal docierać do odczytu, jakby to był cały plik. Jeśli zmianie ulegnie tylko jeden segment pliku, program zarchiwizuje powtórnie tylko zmieniony segment, a nie cały plik. Zdecydowanie poprawia to wydajność odczytywania i zapisywania podczas uzyskiwania dostępu do całego pliku.

Segmentacja pliku jest niewidoczna dla użytkowników i aplikacji. Gdy użytkownik aplikacji chce uzyskać dostęp do określonej części pliku, system plików transparentnie określa segmenty, które zawierają pożądane dane.

W połączeniu z możliwością czytania danych, z wyprzedzeniem (read-ahead) dla organizowania pliku, użytkownicy teoretycznie mogą oczekiwać, że uzyskają dostęp do „pierwszego żądanego bajta“, niezależnie od rozmiaru pliku i miejsca zlokalizowania danych w pliku, w ciągu kilku sekund.

Dane w pliku można bezpiecznie przechowywać na dysku lub taśmie, można je szybko odzyskiwać, gdy są potrzebne, zapewniając dostarczenie ich poprzez sieć z minimalnym opóźnieniem.


TOP 200