Hurtownia danych w pamięci podręcznej, czyli wszystko o in-memory computing

W rozwiązaniach BI warstwa logiki biznesowej realizowana jest przez serwery aplikacyjne, a warstwa danych bazuje na dedykowanych rozwiązaniach macierzowych. W nowym podejściu wprowadzono pamięć operacyjną.

Prace koncepcyjne nad bazą danych in-memory trwały od dłuższego czasu. Jednak niewystarczający poziom technologiczny oraz relatywnie wysoka cena pamięci RAM nie pozwalały na wykorzystywanie jej jako głównego kontenera dla danych. Postęp technologiczny sprawił, że dziś można zrezygnować z tradycyjnych nośników danych, takich jak dyski twarde czy taśmy magnetyczne. Ładowanie i przetwarzanie danych w pamięci RAM jest głównym założeniem In-Memory Computing. Najważniejszą z zalet jest szybkość pracy.

Produkt o nazwie SAP HANA ma dostarczyć użytkownikom biznesowym narzędzia analitycznego do raportowania w czasie rzeczywistym. Dzięki korzystaniu z danych rezydujących wyłącznie w pamięci operacyjnej udało się uzyskać ogromne prędkości wykonywania zapytań statystycznych. Czas realizacji raportów skrócił się z dni do minut i z godzin do sekund.

Zobacz również:

  • Wielka inwestycja Atmana w przetwarzanie danych
  • AI ma duży apetyt na prąd. Google znalazł na to sposób
  • OpenAI rozważa stworzenie własnych układów scalonych AI

Na bieżących danych

100 tys.

zapytań na godzinę obsługuje pojedynczy serwer IBM X5 z oprogramowaniem SAP HANA.

W odróżnieniu od klasycznych rozwiązań BW/BI, w którym użytkownicy przetwarzają dane historyczne, nowy produkt umożliwia wykonywanie zapytań na zestawach najświeższych informacji. Jest to możliwe dzięki zastosowaniu natychmiastowej replikacji danych pomiędzy systemami biznesowymi a silnikiem HANA. Obecnie ekstraktory danych współpracują z systemem SAP ERP, ale producent zamierza zintegrować HANA ze wszystkimi flagowymi produktami firmy SAP. Istnieje ponadto możliwość importu danych z systemów firm trzecich, można także udostępnić wyniki przetwarzania danych poprzez interfejsy SQL i MDX, zaś architektura rozwiązania przewiduje możliwość ścisłej integracji z popularnymi rozwiązaniami Business Objects.

Nie trzeba "ładować hurtowni"

In-Memory Computing w formie proponowanej przez SAP i IBM nie wymusza drastycznych zmian w istniejącej architekturze IT, gdyż wykorzystuje istniejące w przedsiębiorstwie systemy i źródła danych. Rezygnuje jednocześnie ze sztywnych i skomplikowanych struktur OLAP, wprowadzając bibliotekę zapytań, która działa na prostych strukturach danych i może być dowolnie modyfikowana i rozbudowywana przez klientów. Dzięki szybkiemu przetwarzaniu danych udało się zrezygnować ze wstępnej agregacji informacji - motor HANA wykonuje te obliczenia w czasie rzeczywistym.

Informacja dostępna od ręki

Dostęp do skonsolidowanych i aktualnych danych może być czynnikiem przewagi konkurencyjnej, gdyż analizy lub symulacje inwestycyjne mogą być wyliczone w ciągu sekund zamiast godzin czy dni. Oznacza to, że sesje planowania budżetu nie muszą opierać się na wcześniej przygotowanych, sztywnych raportach, w których nie można parametryzować danych składowych. Zastosowanie nie kończy się jednak na raportach finansowych, innym przypadkiem może być analiza rzeczywistego zużycia mediów, takich jak energia elektryczna, na podstawie danych z inteligentnych urządzeń pomiarowych zainstalowanych u odbiorców końcowych. Można znaleźć także inne scenariusze wykorzystania szybkiej hurtowni danych - na przykład analiza milionów rekordów danych medycznych przez firmy opracowujące receptury leków może odbywać się 10 razy szybciej.

Testy trwają

Obecnie SAP HANA znajduje się w fazie testów z wybranymi użytkownikami, ale do programu pilotażowego można przystąpić już teraz. Produkt będzie oferowany w publicznej sprzedaży w drugiej połowie 2011 r. Pierwsze urządzenie dedykowane dla platformy SAP HANA dostarczy IBM, w ofercie znajdują się 4 warianty sprzętowe ze 128, 256, 512 i 1024 GB pamięci RAM.

Jeszcze w bieżącym roku SAP planuje udostępnić pierwszą grupę aplikacji działających na platformie HANA. W jej skład mają wejść aplikacje do planowania sprzedaży, symulacji rabatów, planowania promocji na podstawie danych historycznych, zarządzania płynnością firmy oraz ciekawa pozycja dla branży Utility - analiza odczytów z urządzeń pomiarowych w czasie rzeczywistym.

Wyniki testów wydajnościowych

Pierwsze wyniki testów platformy HANA opublikowano 11 marca. Badano rozwiązanie klasy appliance oferowane przez SAP i IBM pracujące na serwerze IBM X5, posiadającym 32 rdzenie. Dzięki wbudowanym mechanizmom kompresji przetwarzanie 1,3 TB danych możliwe było przy użyciu 0,5 TB pamięci operacyjnej. Testy przeprowadzano bez wstępnej agregacji danych, nie stosowano również żadnej dodatkowej optymalizacji bazy. Do badania wybrano zestaw danych o rozmiarze 1,3 TB, przy czym zapytania dobrane były w taki sposób, by zasymulować rzeczywiste warunki pracy platformy analitycznej. Sesje testowe zakładały jednoczesne wykonywanie 10 strumieni zapytań analitycznych i 4 strumieni raportów operacyjnych. Uzyskano rezultat na poziomie 10 tys. zapytań na godzinę, co oznacza, że użytkownik musiał czekać jedynie kilka sekund na wyniki wykonywania poszczególnych operacji analitycznych. Sesje testowe były audytowane przez niezależną firmę WinterCorp.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200