Siedem mitów

Hurtownia danych może zastąpić przetwarzanie transakcyjne

Dlaczego nie? Czy nie można wyobrazić sobie rozwiązania idealnego - hurtowni danych, będącej jednocześnie systemem transakcyjnym, służącym do wprowadzania danych i obsługi bieżącej firmy? Wprawdzie pomysł taki jest niezgodny z definicją hurtowni danych, ale spróbujmy wyobrazić sobie, jak wyglądałoby wcielenie tej idei w życie. Za takim uniwersalnym podejściem przemawiałyby następujące cechy hurtowni danych:

  • hurtownia danych jest oparta na zbiorach danych

  • dostępny jest język przetwarzania danych

  • dane można wizualizować

  • dane można wprowadzać

  • dane można edytować (z technicznego punktu widzenia są to tylko pliki).
Istnieją jednak zasadnicze różnice, które w praktyce eliminują możliwość sensownego scalenia tych dwóch klas systemów w jeden produkt:

  • w hurtowni danych (zazwyczaj) dąży się do agregacji danych, w systemach transakcyjnych dane przechowywane są na najniższym poziomie szczegółowości;

  • w hurtowni danych przechowywane są dane przydatne w dalszych analizach (czyli wybrane pola zbiorów danych), w systemach transakcyjnych - wszystkie aktualne dane;

  • system transakcyjny zawiera zawsze aktualny stan danych, natomiast w hurtowni danych przechowywane są fotografie tego stanu, wykonywane w zadanych odcinkach czasowych

  • w systemach transakcyjnych użytkownicy mają ściśle określony sposób dostępu do danych, w hurtowni natomiast mają pełną swobodę co do sposobu przeglądania danych;

  • w systemach hurtowni danych mechanizm transakcji jest zbędny, dla systemów transakcyjnego przetwarzania danych jest elementem podstawowym, toteż dla tych dwóch klas systemów rozwijane są odrębne narzędzia i platformy

  • w aplikacjach operacyjnych występuje stały, równomierny napływ małych porcji danych, w hurtowni - duże porcje danych w dużych odstępach czasu

  • w systemach firmowych użytkownicy mają prawa do zapisu, odczytu i modyfikacji danych, w hurtowni - tylko do odczytu

  • w hurtowni danych dane są przechowywane w postaci zdenormalizowanej (brak relacji, redundantność), natomiast w systemach transakcyjnych przeważnie dąży się do uzyskania postaci normalnej możliwie wysokiego stopnia (sytuacja ta wynika z tego, że obie klasy systemów powstają w odmiennych celach i są pod kątem tych różnych celów optymalizowane.
Do osiągnięcia celów realizowanych przez systemy te trzeba więc stosować wzajemnie eliminujące się podejścia. Szukanie kompromisu będzie zawsze oznaczało ograniczenie możliwości lub efektywności stworzonego rozwiązania.

Tworzenie hurtowni danych jest zadaniem trudnym

Tak, ale trudność wcale nie leży tam, gdzie można by jej intuicyjnie oczekiwać. Opanowanie ideologii i technologii hurtowni danych nie jest wyzwaniem przekraczającym siły przeciętnego informatyka, dysponującego pewnym doświadczeniem w przetwarzaniu danych. Do modelowania danych najczęściej niezbędny jest analityk znający zagadnienia branżowe, na potrzeby których tworzona jest hurtownia. Kluczowym elementem jest żelazna konsekwencja przy realizacji poszczególnych etapów tworzenia hurtowni danych. Jest to proces długotrwały. Jakiekolwiek skróty, nie przemyślane do końca zmiany czy uproszczenia, przyspieszające realizację na dowolnym etapie budowy hurtowni danych, doprowadzą do sytuacji, w której trzeba będzie rozstrzygać dylematy w rodzaju: brniemy dalej, ze świadomością, że jest źle i tak już zostanie, czy zaczynamy od początku? Jeśli dojdzie do takiej sytuacji, sprawa jest w 50% przegrana, gdyż produkt albo nie spełni oczekiwań, albo zabraknie czasu i/lub pieniędzy.

Zawsze trzeba

Przed podjęciem decyzji o wdrożeniu hurtowni danych we własnej firmie zawsze należy odpowiedzieć na dwa pytania:

Co to jest hurtownia danych?

Czy w mojej firmie potrzebna jest hurtownia danych?

Jeśli potrafimy udzielić przekonującej odpowiedzi, można (i należy) skonsultować się ze specjalistami z tej dziedziny, którzy umocnią nas w postanowieniu realizacji hurtowni danych w naszej firmie lub rozwieją kolejny mit.

<hr size=1 noshade>Wojciech Sypko jest członkiem zespołu ds. hurtowni danych w PZU Życie SA.


TOP 200