Zarządzanie dużymi bazami danych

Michael Kolak robi zapasowe kopie swoich plików dwa razy, a nie raz.

Michael Kolak robi zapasowe kopie swoich plików dwa razy, a nie raz.

Wszystkie rozproszone dane firmy McDonald - 13 Gb na biurowych serwerach oraz 200 Gb na 45 zdalnych serwerach - są, w celach bezpieczeństwa, składowane na mainframe.

Co by się stało, gdyby jeden ze zdalnych serwerów zepsuł się uniemożliwiając dostęp do całego systemu plików?

"Upłynęłoby mnóstwo czasu, zanim odzyskałbym wszystkie dane", mówi Michael Kolak, dyrektor działu komputerowego McDonalda. Dlatego też raz w tygodniu tworzy lokalnie zapasowe kopie na 8-milimetrowych taśmach, wykorzystując unixowe aplikacje do backupowania danych.

Rekonstrukcja danych poprzez sieć to żmudne i czasochłonne zajęcie. "Usprawnienie tego procesu jest możliwe tylko dzięki zastosowaniu zautomatyzowanego i szybkiego systemu w razie awarii", mówi Kolak. "Chociaż takie systemy są upowszechnione na mainframe'ach, to nie istnieją pod Unixem".

Nie wszystkim jednak zależy na scentralizowaniu przechowywanych danych. Najczęściej problem składowania jest rozwiązywany w obrębie jednego działu za pomocą autoloaderów, serwerów składowania danych (storage server) oraz różnego rodzaju pakietów oprogramowania.

Udoskonalanie systemów

Producenci dla tego sektora rynku gorączkowo pracują nad tym, aby ich systemy były bardziej sprawne w obsłudze i zdolne do pracy w wielu środowiskach. Pomimo to ich obsługa nadal nastręcza zbyt wiele trudności.

Mike Goebel, informatyk w dużej firmie produkującej żywność w Minneapolis, używa do tworzenia kopii zapasowych 30 urządzeń taśmowych połączonych z serwerami, kopiując każdej nocy 62 Gb danych z ok. 60 serwerów-I486 Intela. Na domiar złego w jego dziale standardem jest Windows NT Advanced Server - środowisko z ograniczonymi możliwościami tworzenia zapasowych kopii.

Goebel zamierza pozbyć się nadmiaru urządzeń taśmowych i stworzyć równoległą sieć kopiującą opartą na czterech serwerach, które odciążą główną sieć LAN. Serwery plików LAN mniej więcej co 6 godzin będą przesyłały nowe kopie danych na dyski "centralnych serwerów" równoległej sieci. Następnie, każdej nocy, centralne serwery będą przepisywać wszystkie dane na server połączony z 12-taśmowym autoloaderem.

Takie rozwiązanie zwolni LAN z uciążliwej funkcji robienia zapasowych kopii, zwiększając jego wydajność i niezawodność. Poza tym odczyt zapasowych danych będzie możliwy bezpośrednio z dysku.

Plan Goebela nazywany "kopiowaniem na gorąco" może zdobyć popularność ze względu na coraz niższe ceny dysków (0,5 USD za 1 Gb). Już pojawiły się pierwsze programy wspomagające "kopiowanie na gorąco". Przykładem może być ADSM/6000 firmy IBM, który kopiuje dane na AIX-serwer.

Pojemność przede wszystkim

Goebel jednak będzie musiał rozwiązać jeszcze jeden problem. W przyszłym roku rozpoczną się prace nad przyłączeniem jego 60 serwerów do ok. 4 wysokiej wydajności serwerów Sequenta. Kiedy to się stanie, pojemność danych wzrośnie 3-krotnie i tworzenie kopii na dyskach przestanie się opłacać. Do tego czasu Goebel zamierza zorganizować zautomatyzowane taśmoteki wzorując się na rozwiązaniu unixowym.

Inna opcja to zastosowanie serwerów składowania danych. Systemy te mają być wprowadzone do sprzedaży już w tym miesiącu przez Maxoptics, Network Appliance oraz Fujitsu. W jednym pudełku łączą one dyski magnetyczne z optycznymi. Niektóre z tych urządzeń (np. Fujitsu), pozwalają na przyłączenie taśmotek. Natomiast inne mogą realizować funkcje zarządzania hierarchiczną strukturą składowania danych.

"Głównym celem storage-serwerów jest odciążenie serwerów aplikacyjnych z funkcji tworzenia zapasowych kopii", mówi Bill Frank, analityk z Augur Visions. Poza tym są one niedrogie, szybkie i niezawodne.

Nie takie odległe problemy

Kolejnym problemem dla tych, którzy zarządzają systemami rozproszonych danych, jest niezwykle pracochłonne wykonywanie zapasowych kopii danych znajdujących się na zdalnych stanowiskach.

Ośrodek leczniczy w Orlando na Florydzie ma 50 serwerów NT, które składują 500 MB danych na zdalnych stanowiskach rozsianych po całej okolicy. David Greenberg, kierownik rozwoju nowych systemów, nie chce płacić sieciowemu technikowi za robienie kopii danych na każdym z tych stanowisk. "Chcę z jednej konsoli ustalać co, gdzie i kiedy ma być kopiowane", mówi Greenberg. Korzysta on z programu Storage Exec firmy Arcada, który jako jedyny udostępnia konsolę do centralnego zarządzania. Jednak ma on jedną zasadniczą wadę. Kiedy zarządzająca konsola rozłącza się z odległym serwerem, ten "wyrzuca" taśmę. " Na miejscu musi być człowiek, który załaduje ją z powrotem", mówi Greenberg.

Jeszcze we wrześniu br. Hewlett-Packard zaprezentował swój najnowszy autoloader na 6 kartridżów z towarzyszącym oprogramowaniem. Jest on przeznaczony przede wszystkim do zarządzania zdalnymi stanowiskami. Jego sprzedaż rozpoczęła się w poprzednim miesiącu.

Poza tym nie ma pełnej zgodności między systemami do tworzenia zapasowych kopii na maszynach PC w sieciach lokalnych. Z tego właśnie powodu firma Richardson Electronics poniesie dodatkowe koszty. Używa ona programu Networker firmy Logato dla serwerów pracujących pod Unixem oraz programu Arcserv firmy Cheyenne dla NetWare. Problem polega na tym, że Networker nie może czytać zapisów Arcserva. W tej sytuacji firma będzie standaryzować się na Networkerze, gdyż w razie awarii chciałaby mieć jeden rodzaj zapasowych kopii.

Stworzenie standardowego formatu danych do wymiany między systemami (System Interchange Data Format) ma na celu nakłonienie producentów do stosowania jednego rodzaju zapisu taśm. Paldimore już wspomaga SIDF, a Cheyenne ma zacząć od następnej wersji Arcserva

Na zakończenie warto zauważyć, że żadna z metod - ani centralnego ani rozproszonego składowania - nie wysuwa się na pierwsze miejsce.

"Jeżeli dane znajdowałyby się na 100 stanowiskach, to dane z 15 stanowisk można by przesłać do centralnej składnicy", mówi Dan Friedlander, analityk z firmy konsultingowej Boulder. "85% danych trzeba jednak zabezpieczyć w inny sposób".


TOP 200