Archiwizować, nie usuwać!

Gdy zwiększa się ilość danych, które nie są przetwarzane, kluczowe staje się zarządzanie cyklem życia informacji. Nie oznacza to usuwania plików czy wiadomości, lecz odłożenie ich do archiwum.

W cyklu życia informacji można zauważyć trzy najważniejsze etapy: 1. gdy informacja (plik, wiadomość, obiekt) jest przetwarzana i jej prawdopodobieństwo użycia jest bardzo wysokie (jest "gorąca"); 2. potem następuje stopniowy spadek prawdopodobieństwa, że będzie potrzebna natychmiast; 3. na koniec można ją zarchiwizować (gdy stanie się "zimna"). Nie można jednak założyć, że nie będzie ona nigdy potrzebna. Szczególnie w przypadku dokumentów finansowych nie można zrobić takiego założenia - w razie reklamacji, procesu sądowego lub innych firmowych zdarzeń niezbędne będzie wyciągnięcie informacji z archiwum. Z drugiej strony, plik czy inny obiekt znajdujący się na macierzy dyskowej lub serwerze plików zajmuje zasoby, powodując niekiedy spowolnienie pracy systemów.

Audytorzy oceniają, że w firmach jest nawet 90% informacji w postaci danych niestrukturyzowanych, takich jak: dokumenty biurowe, pliki multimedialne, zdjęcia, wstawiane obiekty czy załączniki poczty elektronicznej. Większa część informacji niestrukturalnych staje się "zimna" w ciągu roku lub dwóch. Oznacza to, że w firmach z górnej części sektora MSP, a także w dużych przedsiębiorstwach, niezbędna staje się polityka zarządzania cyklem życia informacji.

Czy potrzebujemy wszystkich e-maili

Typowym zasobem, w którego ramach trzeba zarządzać cyklem życia informacji, jest poczta elektroniczna. Jest to medium, w którym ta sama informacja może znajdować się w wielu kopiach, a zatem prosta koncepcja pojedynczego składowania danych przynosi znaczące oszczędności miejsca w archiwum.

Badania firmy EMC, przeprowadzone na podstawie wyników wdrożenia u dziesięciu klientów z USA, Anglii, Francji i Polski, wykazały, że każdy załącznik znajduje się średnio w trzech kopiach w różnych wiadomościach poczty elektronicznej Microsoft Exchage czy Lotus Domino. Oznacza to, że przeniesienie "zimnych" danych poza zasób Exchange umożliwia znaczącą redukcję niezbędnej przestrzeni dyskowej. Aby to uzyskać, narzędzie kontaktuje się za pomocą MAPI lub pobierając tzw. journal (wirtualną skrzynkę, gdzie znajdują się wszystkie wiadomości, które przeszły przez serwer pocztowy) i analizuje zawartość serwera, próbując dopasować do sytuacji założenia polityki zarządzania cyklem życia danych.

Wiadomości można również odbierać przez SMTP. Te, które spełnią określone założenia, będą zarchiwizowane, a w ich miejscu będzie wersja skrócona, zawierająca nagłówki oraz część treści, a także specjalny link. Po kliknięciu, przeglądarka internetowa skontaktuje się z oprogramowaniem archiwizacyjnym i wyświetli pełną treść wiadomości. Istnieje też możliwość wywołania aplikacji pocztowej.

Niektóre wiadomości, na przykład najstarsze, można przenieść trwale do archiwum. Zarchiwizowane wiadomości można będzie przeszukać za pomocą wyszukiwarki obsługiwanej przez przeglądarkę. Dobra wyszukiwarka rozpoznaje nie tylko polskie litery w zapytaniach. Potrafi też uwzględnić polską fleksję oraz ewentualne tagi wiadomości lub innych obiektów. Przy przeszukiwaniu brana jest pod uwagę cała treść, włącznie z zawartością załączników, które można przeszukać. Należy przy tym pamiętać, by użytkownik mógł przeszukać tylko te wiadomości, które kiedyś wysłał lub otrzymał.

Zależnie od przyjętej polityki przechowywania takich danych, po odnalezieniu wiadomości można ją z powrotem odtworzyć do poprzedniego miejsca na serwerze pocztowym. Obie metody mają istotne zalety dla działu IT. Umożliwiają odciążenie silnie obciążonego serwera pocztowego, zmniejszają liczbę i objętość obiektów znajdujących się w jego zasobach, a także są samoobsługowe - użytkownik może przejrzeć lub odzyskać zarchiwizowaną wiadomość bez konieczności przeprowadzenia odtwarzania zasobów z firmowego archiwum przez dział IT.

Niepotrzebne pliki

Serwery plików mają jedną wspólną cechę - w miarę wzrostu liczby obiektów systemy plików działają coraz wolniej. Problem dotyczy nie tylko backupu, lecz także pozyskiwania danych z podkatalogów o bardzo dużej liczbie plików. Gdy liczba plików w systemie sięgnie kilkuset tysięcy, miliona i więcej, radykalnie spada efektywność backupu i mogą pojawić się problemy wydajnościowe. Firmy obchodzą problem, dzieląc zasoby między różne udziały sieciowe, by zmniejszyć obciążenie systemu plików. Nie rozwiązuje to jednak podstawowego problemu, jakim jest nadmiar "zimnych" danych leżących na produkcyjnym zasobie.

Wdrożenie polityki zarządzania cyklem życia informacji sprawia, że rzadko używane pliki będą zastąpione ich linkami - plikami skrótu, które odwołują się do oprogramowania archiwizacyjnego, by pobrać archiwizowany oryginał. Metoda ta radykalnie zmniejsza zajętość zasobów dyskowych produkcyjnego serwera, ale nie zmniejsza liczby składowanych obiektów. Dopiero przeniesienie pliku do archiwum odciąży całkowicie system plików. Wadą jest konieczność przeszukiwania archiwum, by odtworzyć dany plik. W większości przypadków pracownicy prędzej znajdą plik na podstawie jego zawartości niż oryginalnego położenia.

Dodatkową zaletą polityki zarządzania zasobami jest możliwość znalezienia plików, które są poufne dla firmy, a zatem nie powinny znajdować się w ogólnodostępnych zasobach firmowych, takich jak wspólne udziały sieciowe. Typowym przykładem są dokumenty zawierające dane dotyczące pensji czy spraw pracowniczych, zapisane do krótkotrwałego użycia, a następnie przypadkowo pozostawione w miejscu, w którym nie powinny się znaleźć.

Firmowe archiwum

Aby odłożyć dokumenty z systemów produkcyjnych, niezbędne jest firmowe cyfrowe archiwum. Aby można było składować tam naprawdę duże ilości danych, niezbędne jest wprowadzenie mechanizmów deduplikacji, które zmniejszą zapotrzebowanie na przestrzeń dyskową. Tych obiektów, przeniesionych z produkcyjnych systemów, będzie bardzo wiele, dlatego oprogramowanie musi przygotować dla nich miejsce w kontenerach o pojemności od kilku do 100 MB każdy. Dzięki temu znacznie zmniejszy się liczba obiektów przechowywanych w zasobach CIFS. Ma to pozytywny wpływ na wydajność, a także umożliwia skalowanie, gdyż zapis do osobnych kontenerów może odbywać się równolegle z różnych serwerów archiwizacyjnych.

Archiwum nie może być kosztowne. Należy więc korzystać z niedrogich dysków SATA o wielkiej pojemności, ale niedużej wydajności. Dyski te charakteryzują się gorszym współczynnikiem BER (Bit Error Rate), a zatem należy wprowadzić dodatkowe mechanizmy zabezpieczenia przed zniszczeniem obiektów. Polega to na rozproszeniu zasobów między dyskami oraz sprawdzaniu spójności danych i metadanych za pomocą zaawansowanych sum kontrolnych i skrótów kryptograficznych, takich jak SHA1.

Narzędzia tworzące archiwum dyskowe potrafią samodzielnie zarządzać dyskami i mają wbudowane mechanizmy detekcji niekorygowanych błędów dysków twardych. Można dzięki temu osiągnąć długoterminową stopę błędów poniżej 1:10^24, co oznacza, że archiwum takie może być w praktyce porównywalne z taśmą magnetyczną. Jednocześnie jest to medium o wiele sprawniejsze, gdyż umożliwia przeszukanie treści i szybkie odtworzenie praktycznie dowolnego obiektu.

Odkładamy dane

Obiekty do archiwum pobiera się zazwyczaj wsadowo, poza głównym szczytem obciążenia, by zminimalizować wpływ tych zadań na pracę serwera plików lub poczty elektronicznej. Po podłączeniu do produkcyjnego zasobu narzędzie przeszukuje go, stosując zapisane założenia polityki zarządzania cyklem życia informacji, a następnie przenosi do archiwum, pozostawiając skrót bądź go nie zostawiając. W przypadku poczty odbywa się to razem z załącznikami, chociaż można skonfigurować system w taki sposób, że zarchiwizuje tylko załączniki, co radykalnie zmniejszy objętość store'u serwera pocztowego. W ten sam sposób można archiwizować praktycznie dowolne zasoby, o ile dostępne jest odpowiednie API umożliwiające integrację. Niekiedy niezbędne jest dodatkowe oprogramowanie.

Połączenie do serwera pocztowego za pomocą API umożliwia sprawdzenie skrzynek, które nie są bezpośrednio związane z wychodzącymi lub przychodzącymi wiadomościami poczty elektronicznej. W ten sposób można sprawdzić foldery takie jak "Szkice" lub założone przez użytkownika i umożliwić działowi IT kontrolę wiadomości, które nigdy nie wyszły przez SMTP, a więc nie znajdują się w journalu.

Właśnie w taki sposób, korzystając ze szkiców, porozumiewali się terroryści, którzy zorganizowali atak z 19 września 2001 r. Narzędzia archiwizacyjne można zatem wykorzystać nie tylko do redukcji obciążenia serwera plików lub pocztowego, ale także do zastosowań związanych z bezpieczeństwem składowanej informacji w firmie.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200