Dane jak na drożdżach

Wraz ze wzrostem ilości danych przetwarzanych w systemach informatycznych przedsiębiorstw wzrastają koszty ich archiwizacji. I choć przyrostu objętości danych nie da się prawdopodobnie zatrzymać, nawet nieznaczne ograniczenie jego tempa może w dłuższej perspektywie oznaczać spore oszczędności.

Wraz ze wzrostem ilości danych przetwarzanych w systemach informatycznych przedsiębiorstw wzrastają koszty ich archiwizacji. I choć przyrostu objętości danych nie da się prawdopodobnie zatrzymać, nawet nieznaczne ograniczenie jego tempa może w dłuższej perspektywie oznaczać spore oszczędności.

Dane jak na drożdżach

Skrócona historia danych w systemach korporacyjnych

Wzrost ilości danych może wydawać się problemem wyimaginowanym. Danych przybywa od początku istnienia komputerów i choć wielokrotnie pojawiały się różnego rodzaju bariery, były one przez innowacyjny przemysł pokonywane. Nawet jeżeli - według różnych opinii i badań - objętość elektronicznych zbiorów danych podwaja się mniej więcej co rok, dwa lata, równolegle następuje wzrost pojemności nośników, a ich ceny w przeliczeniu na jeden megabajt czy gigabajt systematycznie spadają. Nie ma więc o co kopii kruszyć.

Czy na pewno? Dla dysponujących ograniczonymi budżetami szefów działów informatycznych eksplozja danych staje się coraz większym problemem. Spadek cen dotyczy bowiem przede wszystkim nośników popularnych, takich jak dyski ATA czy płyty CD-R, nie mających dużego znaczenia w profesjonalnym, biznesowym środowisku informatycznym. Ceny dysków SCSI czy Fibre Channel owszem spadają, lecz znacznie wolniej i ze znacznie wyższego poziomu. Cena przeciętnego dysku SCSI jest, w przybliżeniu, dwa, trzy razy wyższa od ceny "domowego" dysku ATA o porównywalnej pojemności. W przypadku markowego dysku Fibre Channel przeznaczonego dla określonego typu serwera/macierzy cena wzrasta kolejne kilka czy nawet kilkanaście razy.

Nie to jednak jest najważniejsze. Sprawą o wiele istotniejszą jest fakt, że dla szefa informatyki koszt megabajta danych nie jest równoważny cenie megabajta dysku twardego. Rosnąca liczba danych powoduje bowiem kaskadowy wzrost pośrednich kosztów utrzymania danych. Po pierwsze, więcej danych to większe zapotrzebowanie na moc obliczeniową do ich przeszukiwania. Więcej danych to także coraz sprawniejsze - ale i z reguły coraz droższe - narzędzia do zarządzania, np. motory baz danych. W konsekwencji wzrasta zapotrzebowanie na wykwalifikowany personel.

Dane są dla firmy bezcenne, trzeba więc chronić je przed utratą. Powszechnie stosowanym rozwiązaniem zabezpieczającym są nadmiarowe macierze dyskowe. Kosztowne są zarówno macierze, jak i oprogramowanie do zarządzania nimi. Ponadto zwiększanie pojemności macierzy wymaga zazwyczaj zakupu nie jednego, lecz kilku dysków jednocześnie. Zwiększająca się liczba danych wymusza wzrost kosztów archiwizacji. Im więcej danych na dyskach, tym więcej trzeba wydać na rozwiązanie archiwizacyjne - i wcale nie chodzi tu o koszt taśm magnetycznych. Wzrost liczby danych sprawia, że archiwizacja trwa coraz dłużej. Gdy czas archiwizacji zbliża się niebezpiecznie do granicy tzw. okna back-upowego, istniejące rozwiązanie archiwizacyjne trzeba rozbudować o kolejny napęd/napędy lub, jeśli to niemożliwe, zainwestować w nowe i szybsze. Można też, co z reguły jest jeszcze droższe, zakupić dobrej klasy macierz, zapewniającą możliwość wykonywania kopii typu snapshot.

Łączne koszty utrzymania danych w przedsiębiorstwie mogą przekraczać dziesiątki razy ceny "surowych" nośników. Poszukiwanie metod ograniczenia liczby danych, a w praktyce - spowolnienia tempa ich przyrastania - wydaje się bardzo sensowne, zwłaszcza że wiele z nich to znane od lat, lecz często zapomniane dobre praktyki.

Uwaga na projekt

Tempo przyrostu danych w systemie informatycznym, rozumianym jako aplikacja współpracująca z bazą danych, w największym stopniu zależy od sposobu, w jaki został zaprojektowany. Projekt powstaje zaś pod dyktando klienta, który często nie ma pojęcia o dalekosiężnych skutkach swoich żądań dotyczących funkcjonalności.

Szukając wysokiej wydajności, projektant może np. pokusić się o wprowadzenie do bazy wielu indeksów. Indeks to dodatkowa kolumna w tabeli, w której umieszcza się wartości najczęściej przeszukiwanych kolumn. Wartości w indeksie są ułożone alfabetycznie, co znacznie przyspiesza proces ich wyszukiwania. Jednak im więcej kolumn bazy danych klient zgłosi projektantowi jako istotne kryteria przeszukiwania bazy, np. w celu raportowania, tym więcej indeksów trzeba będzie stworzyć. W wielu przypadkach indeksy stanowią istotną część objętości bazy danych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200