Dane jak na drożdżach

Wielkość zasobów zajmowanych przez bazę danych zależy od dbałości o pliki, w których przechowywana jest baza danych - w odróżnieniu od jej struktury logicznej, czyli tabel, bloków itp. Objętość plików bazy rośnie wraz ze wzrostem liczby danych, jednak gdy z bazy usunąć dużą ich porcję, wielkość pliku pozostaje nie zmieniona. Efekt ten występuje zwłaszcza wtedy, gdy w bazie są tworzone tzw. tabele tymczasowe, w których umieszczane są dane potrzebne do stworzenia raportu bądź wydruku. Nadanie plikowi rozmiarów bardziej odpowiadających rzeczywistej potrzebie wymaga wpisania jednej komendy z linii poleceń, jednak administratorzy nie zawsze pamiętają o tych prostych zabiegach. W wielu firmach istnieje zwyczaj przechowywania w bazie wszystkich dotychczasowych raportów. Mało kto zdaje sobie jednak sprawę, jak wiele kosztuje ta "wygoda" - pojedynczy raport może zajmować dziesiątki, a nawet setki megabajtów!

Sztandarowym przykładem zaniedbania w dziedzinie administrowania bazami danych są rosnące w nie kontrolowanym tempie bazy systemów pocztowych. Problem występuje w firmach, których poczta jest przechowywana głównie lub tylko na serwerze, a nie w lokalnych plikach na PC. Ponieważ spora część wiadomości pocztowych szybko się dezaktualizuje, administrator może skonfigurować serwer pocztowy tak, aby po upływie określonego czasu stare wiadomości były automatycznie usuwane lub - tam gdzie to niemożliwe - przenoszone do foldera podlegającego automatycznej archiwizacji. Standardową metodą ograniczania wielkości bazy pocztowej jest nakładanie ograniczeń na wielkość załączników, ale nie zawsze jest to środek wystarczający. Coraz powszechniej stosowanym zabiegiem jest ograniczanie objętości skrzynki pocztowej - po przekroczeniu limitu użytkownicy nie mogą wysłać nowej wiadomości i w ten sposób są zmuszani do porządkowania skrzynek.

Przed wydaniem pieniędzy na nowy serwer czy macierz dyskową warto upewnić się, że wydatek ten jest niezbędny. Większość kłopotów z nadmiarem danych powstaje bowiem nie samoistnie, lecz w wyniku zaniedbania: projektantów, programistów czy administratorów. W większości przypadków środki wydane na optymalizację i strojenie aplikacji i baz danych będą tylko ułamkiem inwestycji, które trzeba by poczynić, pozostawiając sprawy samym sobie.

Przyczyny wzrostu ilości danych w przedsiębiorstwach
  • zaniedbania na etapie projektowania systemu

  • zaniedbania w dziedzinie administracji

  • wzrost liczby obszarów obejmowanych informatyką

  • digitalizacja dokumentów papierowych

  • coraz dokładniejsze opisywanie rzeczywistości w systemach

  • odchodzenie od formatów binarnych na rzecz tekstowych

  • coraz użyteczniejsze, ale "nieoszczędne" formaty zapisu danych, np. XML

  • problemy z wydajnością i pojawienie się w ich wyniku oddzielnej klasy systemów - baz analitycznych

  • Leszek Maśniak, kierownik projektu hurtowni danych w Agora S.A.

    Z punktu widzenia zastosowań analitycznych im więcej danych, tym lepiej. Nie oznacza to jednak, że nie ma miejsca na optymalizację - nikt nie ogarnie przecież terabajtów, a wkrótce zapewne petabajtów danych. W moim odczuciu problem leży jednak gdzie indziej: kosztowne jest nie tyle gromadzenie ogromnych ilości danych, ile robienie tego bez umiejętności przekształcenia ich w użyteczną informację biznesową.


    TOP 200