Bazy według Stonebrakera

Michael Stonebraker, pionier techniki baz obiektowych, tworzy produkty do łączenia rozproszonych baz danych.

Michael Stonebraker, pionier techniki baz obiektowych, tworzy produkty do łączenia rozproszonych baz danych.

Idea sfederowanych baz - systemów baz danych luźno połączonych w sieci - nie jest nowa. Dotychczas nie było jednak produktu, który pozwalałby na praktyczną jej realizację, głównie z powodu trudności w osiągnięciu zadowalającej wydajności.

Firma Cohera, założona przez Michaela Stonebrakera, pomysłodawcę wielu systemów baz danych - a warto tu wspomnieć relacyjny Ingres (obecnie w Computer Associates) i obiektową Illustrę (obecnie część baz Informixa) - stworzyła program Data Federation System (DFS), przeznaczony do łączenia rozproszonych baz danych w jeden koherentny system, nawet jeśli systemy te znajdują się w odległych miejscach i są dostępne przez powolne łącza komunikacyjne.

Możliwość tworzenia zunifikowanego widoku informacji zgromadzonej w firmie stanowi podstawę skuteczności procesów podejmowania decyzji. Hurtownie i hurtownie tematyczne integrują podzbiory informacji. Nadal większość informacji pozostaje poza zasięgiem zainteresowanych osób. System Cohera został opracowany z myślą o dostarczaniu w czasie rzeczywistym jednolitego widoku danych w firmie. Nie zakłóca on autonomii baz lokalnych - ich administrator decyduje, kto i w jakim zakresie ma dostęp do danych. Cohera dokonuje również czyszczenia i transformacji danych na bieżąco, zapewniając jednolity format danych.

Cohera nie zastępuje hurtowni danych ani hurtowni tematycznych. Może natomiast stanowić uzupełnienie ich możliwości.

Kłopoty z hurtowniami

Twórcy i użytkownicy hurtowni muszą pogodzić się z ich ograniczeniami, wynikającymi z założonego modelu działania lub możliwości technicznych i finansowych przedsiębiorstwa. Oto najczęściej występujące ograniczenia:

Hurtownie zapewniają wgląd w dane historyczne; aktualność danych zależy od częstości zapełniania hurtowni (na ogół tydzień lub miesiąc). Ponieważ Cohera pozwala na uzyskanie informacji o stanie bieżącym firmy, może wspomagać podejmowanie decyzji nawet z dokładnością do ostatnio wykonanych transakcji.

Hurtownie tematyczne lub minihurtownie oddziałowe są tworzone w celu zapewnienia szybkiego dostępu do pewnego wycinka danych. Jeśli nie ma wspólnej hurtowni dla całego przedsiębiorstwa, traci się ogólny wgląd w jego stan. Cohera pozwala na zintegrowanie danych z tych minihurtowni przez odwzorowanie danych lokalnych zgodnie z jednolitym modelem danych.

Ryzyko zakończenia się fiaskiem projektu hurtowni danych dla całego przedsiębiorstwa jest duże. Cohera pozwala na szybkie utworzenie prototypu hurtowni i sprawdzenie jej przydatności w procesach decyzyjnych, zmianę modelu danych itp., a później już łatwiej zrealizować dobry projekt hurtowni.

Hurtownia służy tylko do analizy danych, ale nie pozwala na podejmowanie działań na ich podstawie. Dane w hurtowni nie są powiązane wstecz z danymi operacyjnymi, nie można ich zmieniać, a więc np. wpływać bezpośrednio na procesy produkcyjne, zakupy, stan magazynu itp. Cohera zamyka tę pętlę decyzyjną, gdyż jest to system posługujący się bezpośrednio danymi operacyjnymi z możliwością zapisywania danych. Można m.in. zmienić plan produkcyjny, przygotowując się do oczekiwanego wzrostu lub spadku zapotrzebowania, stwierdzonego na podstawie analizy danych z baz sfederowanych.

Wydajność przede wszystkim

W systemie Cohera zastosowano wiele rozwiązań zwiększających wydajność baz sfederowanych. Większość z nich to wynik prac badawczych, prowadzonych na Uniwersytecie Kalifornijskim w Berkeley, gdzie Michael Stonebraker jest profesorem.

Największym problemem jest potrzeba przesyłania dużej liczby danych (czasem całej tabeli) przez powolne łącza komunikacyjne, by połączyć ją z inną tabelą. W tym przypadku zastosowano specjalny algorytm łączenia Blooma (Bloom join), polegający na wstępnym przesyłaniu skompresowanej sygnatury danych z jednej tabeli. Na jej podstawie druga baza decyduje, jaka część tabeli ma być przesłana do początkowej lokalizacji, w której wykonywane jest standardowe łączenie danych.

Aby zwiększyć szybkość ładowania danych do tabel tymczasowych, Cohera stosuje mechanizmy ładowania wsadowego (bulk loading), dostępne we wszystkich systemach bazodanowych.

Optymalizator zapytań do baz sfederowanych jest bardziej skomplikowany niż w przypadku pojedynczej bazy, gdyż oprócz standardowych decyzji, jakich tabel i indeksów użyć, musi również decydować, czy użyć bazy lub jej repliki, jakie liczbydanych przesłać przez sieć, w którym miejscu wykonać łączenie tabel itp.

System Cohera modeluje federację baz jako gospodarkę, w której rządzą normalne prawa ekonomii. Każde zapytanie do baz jest dzielone na podzadania, których wykonanie powierza się tym bazom, które zrealizują je najmniejszym kosztem i z największą wydajnością. Optymalizacja dotyczy wyboru ofert na wykonanie zadania. Przy optymalizacji zapytań Cohera bierze pod uwagę rzeczywiste obciążenie i wydajność sieci łączącej sfederowane bazy. Cohera pozwala również "płacić" (np. finansowo lub przez spowolnienie działania określonego systemu operacyjnego) w przypadku konieczności szybkiej realizacji zapytania.

Federacja rośnie

Federacja powinna móc rosnąć. System Cohera pozwala na dołączanie w dowolny momencie nowej bazy lub repliki istniejących baz, co umożliwia równomierne dzielenie obciążenia. Podobnie można dołączać systemy "obliczeniowe" nie zawierające danych, służące do wykonywania operacji na danych przesłanych z innych systemów.

System Cohera DFS jest już dostępny na rynku. Kosztuje co najmniej 150 tys. USD.

Michael Stonebraker jest znaną postacią świata informatycznego. Był założycielem firm Ingres Corporation i Illustra Information Technologies, które zostały przejęte odpowiednio przez CA i Informixa. W kolejnej, założonej przez siebie firmie Cohera, powołanej pod koniec 1997 r., Stonebraker jest dyrektorem ds. technologii. Tę samą funkcję pełni nadal w Informix Software.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200