Hurtownie danych dla przyszłości

Fundamentem hurtowni danych jest przekonanie, że na podstawie zachowań z przeszłości można przewidzieć przyszłość.

Fundamentem hurtowni danych jest przekonanie, że na podstawie zachowań z przeszłości można przewidzieć przyszłość.

Koncepcja hurtowni danych jest starsza niż wydaje się młodym informatykom, uznającym za ważne często tylko to, co najnowsze. Początkowy cel - integracja organizacji dzięki hurtowni - okazał się niemożliwy do osiągnięcia. Minihurtownia (data mart) okazała się zbyt ograniczająca. Dostępne opcje są różnorodne, niejednoznaczne i trudne do opanowania. Na szczęście obecnie wchodzimy w okres syntezy - pojawia się konsensus co do sposobów projektowania hurtowni. To dobrze, bo nowe perspektywy hurtowni czasu rzeczywistego wymagają radykalnej zmiany podejścia do tego zgadnienia, nie zaś zajmowania się szczegółami technicznymi, związanymi z projektem ich wdrożenia.

Początki

Początków idei hurtowni można doszukać się w pracach MIT z lat 70. prowadzonych w zakresie optymalizacji architektury komputerów. To wtedy przetwarzanie danych zaczęło rozwijać się w kierunku zarządzania informacją. Jako pierwsi naukowcy z MIT zaczęli odróżniać systemy operacyjne od aplikacji analitycznych. Celem ich prac było stworzenie zaleceń architektonicznych do opracowania nowych rozwiązań, opartych na rozdzieleniu przetwarzania operacyjnego od analitycznego i wykorzystaniu oddzielnych składnic danych o radykalnie różnych zasadach konstrukcyjnych.

Decydującym czynnikiem takiego podejścia były ograniczona moc obliczeniowa ówczesnych komputerów i niewielkie zasoby dyskowe. Na początku lat 80. w IBM opracowano koncepcję "centrum informacyjnego", pozwalającego wydzielić przypadkowe i trudne do przewidzenia obciążenie aplikacjami analitycznymi z platform transakcyjnych. Argumentowano, że te dwa rodzaje systemów są, i zawsze będą, na tyle różne, że wymagają innego podejścia architektonicznego.

Pierwszy udany projekt architektury hurtowni danych stworzyła w późnych latach 80. multidyscyplinarna ekipa Digital Eguipment Corp. (DEC) i zastosowała go do obsługi operacji finansowych firmy. Zespół DEC wydzielił cztery rodzaje usług niezbędnych w hurtowni: pobieranie danych z systemów operacyjnych, analiza danych, usługi katalogowe do znajdowania w globalnej sieci potrzebnych danych oraz interfejs użytkowy (po raz pierwszy wydzielony jako oddzielna warstwa aplikacji).

Integracja danych

Inne podejście preferował IBM. Jego klienci mieli kłopoty z rosnącymi, ilościowo i wielkościowo, zbiorami danych. Liczne fuzje i przejęcia firm wymuszały integrowanie składnic danych o różnych systemach kodowania.

W 1988 r. Barry Devlin i Paul Murphy z IBM Irlandia zajęli się problemem integracji organizacji. To oni wprowadzili pojęcie data warehouse na oznaczenie "środowiska do wspierania użytkowników informacji biznesowej, zapewniającego informatykom możliwość dbania o jakość danych".

W latach 1988-1991 najbardziej zaawansowane firmy budowały hurtownie danych, oparte na technologiach relacyjnych baz danych, wszechobecnej sieci lokalnej/korporacyjnej, modelu przetwarzania klient/serwer i graficznym interfejsie użytkownika.

Bill Inmon definiuje hurtownię

Bill Inmon, w opublikowanej w 1991 r. książce na temat hurtowni danych (W. H. Inmon: Building the Data Ware-house, Wiley, 1991 r.), zdefiniował hurtownię oraz podał najważniejsze zasady i zalecenia jej tworzenia: "Hurtownia danych to tematyczna, zintegrowana, zmienna w czasie składnica nieulotnych danych, przeznaczona do wspierania procesów podejmowania decyzji".

"Orientacja tematyczna" oznaczała przekroje danych z różnych źródeł, wykorzystywane do zaspokajania różnych potrzeb użytkowników.

"Integracja" dotyczyła danych (nie organizacji) i polegała na odwzorowaniu różnych sposobów kodowania danych do wspólnej bazy, opracowaniu spójnej prezentacji elementów i dostarczaniu zestandaryzowanych danych.

Zasadnicze znaczenie ma "zmienność w czasie". Oznacza zapamiętywanie różnych kopii danych w agregacjach o różnych przedziałach czasowych. Na przykład dane szczegółowe z wielu lat mogą być zapisane w agregacjach tygodniowych, miesięcznych, kwartalnych, rocznych. Zmienność w czasie ma zasadnicze znaczenie w utrzymywaniu spójności danych i zapewnieniu odpowiedniej wydajności.

"Nieulotność danych" to podstawowa cecha tradycyjnej hurtowni, chociaż rzadko zachowywana. Zakłada, że jeśli do hurtowni wpisze się rekord danych - nigdy się on nie zmienia. Jest też niezbędna do zapewnienia pełnej historii danych i rejestrowania zmian. Przepisanie jakiegoś rekordu niszczy informację i nie da się jej już odtworzyć.

Podstawowe założenie przyjęte przez B. Inmona polegało na tym, że hurtownia służy jedynie do przechowywania danych do wspierania procesów podejmowania decyzji - bez aplikacji raportowania operacyjnego. Ta ograniczona perspektywa wywołała debatę na temat przeznaczenia hurtowni. Jaki jest minimalny przedział czasu agregacji w hurtowni? Czy dostępne są poszczególne transakcje? Czy informacji z hurtowni można używać do aktualizowania danych w systemach operacyjnych?

Model B. Inmona zawierał dane szczegółowe, aż do poziomu pojedynczych transakcji, chociaż w pierwszej połowie lat 90. wielu twórców hurtowni przyjmowało, że wystarczą dane zagregowane. Argumentowano, że do realizowania aktualnych potrzeb służą systemy operacyjne; hurtownia ma natomiast służyć do określania strategii na przyszłość. Największe, wieloterabajtowe hurtownie owego okresu zawierają jednak dane szczegółowe o zapotrzebowaniach analityków biznesowych i przeznaczone do raportowania operacyjnego.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200