Analityka na aktualnych danych

Bazy danych działające bezpośrednio w pamięci operacyjnej mogą zrewolucjonizować rynek rozwiązań analitycznych. Z drugiej strony, nowe rozwiązania raczej nie zastąpią rozbudowanych systemów BI. Będą ich uzupełnieniem.

Sercem rozbudowanych systemów analitycznych jest dziś baza, czy raczej hurtownia danych, do której spływają praktycznie wszystkie możliwe informacje o prowadzonej działalności. Im szerszy horyzont gromadzonych danych, tym większa i trudniejsza do przetworzenia baza danych. I tu zaczynają się schody. Wąskim gardłem staje się nie tyle niewystarczająca moc obliczeniowa, co kwestia fizycznego składowania danych w macierzach dyskowych i czasów dostępu do informacji. Rozwiązaniem tego problemu może być - skądinąd coraz trudniejsza -optymalizacja sposobu zapisu i działania systemu zarządzania bazą danych, czy wykorzystywanie rozbudowanych klastrowych pamięci masowych. W tę stronę podąża Oracle z linią produktów bazodanowo-sprzętowych Exadata.

Innym rozwiązaniem problemu ma być przeniesienie całej bazy danych do pamięci operacyjnej i wykorzystanie do tego celu technologii przetwarzania in-memory. Dla nowoczesnych pamięci czas dostępu do danych wynosi zaledwie kilkadziesiąt nanosekund. W przypadku dysków twardych jest to zaś kilka milisekund. W uproszczeniu można więc przyjąć, że dostęp do danych przechowywanych w pamięci operacyjnej jest nawet kilkanaście milionów razy szybszy. W tym właśnie kierunku chce iść - konkurujący z Oracle - niemiecki SAP.

Z dysku do pamięci

Podejście takie nie jest niczym nowym. Wraz ze wzrostem szybkości układów DRAM, na przestrzeni ostatnich lat istotnie spadł koszt ich zakupu w przeliczeniu na jednostkę pojemności. Wzrosła więc liczba firm, które potencjalnie stać na zakup serwera wyposażonego w - bagatela - kilka terabajtów pamięci operacyjnej. Nie pozostało to niezauważone przez producentów rozwiązań bazodanowych.

Mechanizmy oparte na przetwarzaniu danych bezpośrednio w pamięci operacyjnej wykorzystują w rozwiązaniach m.in. IBM, Oracle i Sybase, którego przejął właśnie SAP. Nie brak również - opartych na tej technologii - rozwiązań open source oraz hybrydowych systemów zarządzania bazami danych, które wykorzystują algorytmy przetwarzania w pamięci operacyjnej do zwiększenia wydajności całej bazy. Warto wspomnieć, że z dobrodziejstw przetwarzania rozbudowanych struktur danych w pamięci operacyjnej korzysta już dziś SAP. Stosowne mechanizmy indeksowania i przetwarzania dużych wolumenów ustrukturyzowanych danych w czasie rzeczywistym są częścią modułu wyszukiwania platformy SAP NetWeaver - TREX. Zawiera on rozbudowane algorytmy kompresji danych i technologię agregacji danych w czasie liniowym. Znakiem czasów jest też rosnąca popularność rozwiązań analitycznych operujących na danych znajdujących się w pamięci. Większość dostępnych na rynku rozwiązań tej klasy - jak choćby system analityczny QlikView - to rozwiązania dedykowane głównie małym i średnim organizacjom biznesowym. Ograniczeniem jest tu najpewniej właśnie wielkość analizowanego wolumenu danych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200