Hurtownia w tydzień?

Nowa technologia hurtowni danych nie wymaga, aby biznes dostosowywał swoje praktyki do ograniczeń technologii. Tak przynajmniej twierdzą przedstawiciele firmy Digital Archeology.

Nowa technologia hurtowni danych nie wymaga, aby biznes dostosowywał swoje praktyki do ograniczeń technologii. Tak przynajmniej twierdzą przedstawiciele firmy Digital Archeology.

Architektoniczne rozwiązania baz danych pojawiły się prawie przed 30. laty i w zasadzie, mimo rozwoju techniki, nie uległy zmianie. Klasyczna teoria zbiorów, stanowiąca podstawę relacyjnych baz danych, pozwala na sprecyzowanie wyniku, który chce się uzyskać zadając zapytanie do bazy, nie mówi natomiast nic o sposobach jego uzyskania. W efekcie, system zarządzania bazą danych wymaga dokładnego sprecyzowania struktury bazy, którą trudno potem zmienić i używać. Współczesne bazy danych (hierarchiczne, obiektowe, relacyjne) są systemami strukturo-centrycznymi, trudno adaptowalnymi do zmieniającej się rzeczywistości biznesowej. Przykładowo, średni czas realizacji hurtowni danych wynosi obecnie około roku. Co gorsza, długo realizowana hurtownia nie przystaje do rzeczywistości biznesowej.

Wiele ewolucyjnych działań miało na celu usprawnienie podstawowego modelu baz danych i doprowadziło do szybszych metod dostępu do danych (np. przez zróżnicowane indeksowanie). Nie wprowadziło jednak zasadniczej zmiany strukturalnej.

Wizja Digital Archeology

Założyciele firmy Digital Archeology uważają, że to technologia powinna dostosowywać się do zmieniających się potrzeb biznesu. Można tego dokonać za pomocą relacyjno-centrycznego modelu baz danych, realizowanego dzięki rozszerzonej teorii zbiorów X-Set (eXtended Set). W efekcie firma oferuje system zarządzania hurtownią danych wysoko adaptowalny, elastyczny i skalowalny. Kwalifikuje się on do obsługi zarówno strukturalnych zbiorów danych (typowych dla systemów relacyjnych), jak i danych bez wyraźnie określonej struktury (dokumenty tekstowe, zbiory on-line, arkusze obliczeniowe).

X-Set składa się dwóch zasadniczych elementów: motoru obsługi zbiorów i wizualnego języka programowania do ich przetwarzania. Motor obsługi zbiorów pracuje na najbardziej elementarnych składnikach przetwarzanych przez komputer, czyli bajtach.

W przeciwieństwie do tradycyjnego języka zapytań SQL, język programowania przepływu zbiorów jest kompletnym językiem proceduralnym (pozwala nie tylko na określenie tego, co chcemy uzyskać, ale również umożliwia sprecyzowanie, jak można to zrobić). Wizualne narzędzia nie wymagają od użytkownika uczenia się nowego języka programowania.

Niedopasowanie składniowe

Klasyczna teoria zbiorów, stanowiąca podstawę relacyjnych baz danych, operuje encjami (tabelami) i ich instancjami (wierszami w tabeli, rekordami bazy), o których kolejności nic nie wiadomo. Natomiast procesor operuje jedynie ciągiem bajtów, nie zna pojęcia "dostępu przypadkowego", a znaczenie przetwarzanych bajtów wynika z dokonywanych na nich operacji.

Pojawia się fundamentalne niedopasowanie składniowe: procesor "rozumie" tylko operacje na ciągach bajtów, baza danych zaś "rozumie" tylko nie uporządkowane rekordy. Aby więc system bazy danych mógł posługiwać się procesorem do operowania rekordami, musi korzystać ze swoistego translatora, znanego jako metody dostępu do bazy danych: różne techniki indeksowania - B-drzewa, funkcja mieszająca hash.

Ponieważ rekordy nie mają ustalonego porządku, w tabelach musi istnieć klucz główny w postaci kolumny lub ich kombinacji. Dwa rekordy w tabeli nie mogą mieć tej samej wartości klucza głównego - jeżeli mają tę samą wartość, nie można ich rozróżnić.

Uporządkowane rekordy

Architektura X-Set pozwala na obsługiwanie tabel uporządkowanych rekordów (n-tuple). Nie ma problemu jednakowych rekordów, gdyż zawsze różnią się one co najmniej porządkiem występowania. Nie ma potrzeby tworzenia indeksów do bazy ani kluczy do tabel.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200