W poszukiwaniu najlepszego przepisu na Big Data

Inicjatywy Big Data stają się korporacyjnym priorytetem, więc wiele firm stawia sobie pytanie, czy infrastruktura wdrożona do obsługi tradycyjnych, relacyjnych baz danych, hurtowni danych i systemów BI jest wciąż optymalnym wyborem.

Szybko zmieniają się platformy zarządzania danymi, skala i różnorodność zbiorów danych, warunki ekonomiczne czy oczekiwania użytkowników. Gdy te zmiany mają miejsce, zmieniają się również potencjał nowych wartości biznesowych oraz wymagania dotyczące budowania stosu technologicznego. Czym więc kierować się dzisiaj w ocenie możliwych rozwiązania i jaki model wdrażania Big Data weźmie w końcu górę? Badania przeprowadzone przez Enterprise Strategy Group (ESG) pokazały szeroki wachlarz preferencji, ale sytuacja jest dynamiczna i wielu klientów jest zdezorientowanych. Wśród wielu czynników wpływających na technologie Big Data można wyróżnić kilka fundamentalnych wyborów.

Infrastruktura ogólnego zastosowania kontra specjalizowana

Hadoop i inne systemy MPP (Massively Parallel Processing) zasadniczo umożliwiają liniowe skalowanie infrastruktury z wykorzystaniem dużej liczby niedrogich, standardowych serwerów służących do obsługi rozproszonych obciążeń. Jednakże w praktyce takie podejście nie zawsze odpowiada potrzebom operacyjnym. Niektóre korporacyjne aplikacje potrzebują dużych ilości pamięci RAM, wydajnych procesorów czy nośników SSD. Tymczasem nie każdy sprzęt ma taką samą konfigurację.

Zobacz również:

Dodatkowo, gotowe rozwiązania sprzętowe mogą oferować mocno zintegrowane zaawansowane funkcjonalności czy też nadają się do użytku natychmiast po zainstalowaniu, co oznacza krótszy czas wdrożenia i możliwość lepszego wsparcia technicznego. Należy więc postawić sobie pytanie, czy należy dokonać transformacji sprzętu i jak daleko się w niej posunąć. Należy też określić charakterystyki wymagań poszczególnych aplikacji i jak mogą się one zmieniać w przyszłości.

Zasoby dedykowane kontra współdzielone

Wiele branżowych dyskusji dotyczy przeniesienia danych jak najbliżej zasobów obliczeniowych, aby ograniczać opóźnienia, złożoność oraz zasoby potrzebne do realizowania operacji ETL (Extract, Transform, Load). Jednakże podnoszą się głosy, że mapowanie jeden do jednego serwerów i pamięci masowych niekoniecznie ma sens.

Stosowanie współdzielonych macierzy zamiast dysków wbudowanych w serwerów ma zalety, ale jakie kompromisy wiążą się z wykorzystaniem scentralizowanych zasobów? Jak powinny się rozwijać hurtowanie danych czy inne rozwiązania analizy danych, aby dynamicznie dostosowywać możliwości sprzętowe do różnych zastosować analityki i archiwizacji danych?

Zasoby lokalne kontra usługi chmurowe

Od kiedy cloud computing mocno oddziałuje na świat IT, ta technologii musi w końcu znaleźć swoje miejsce również na wielkim rynku danych. Nawet jeśli IaaS, Paas i SaaS oferują wymierne korzyści, ale także wady, cały czas pojawiają się coraz lepiej dostosowane do klienta oferty, wliczając w to usługi Big Data, Hadoop-as-a-Service czy bazy danych jako usługi. Kiedy prowadzenie analityki danych w chmurze ma sens? Jakie wiążą się z tym kwestie dotyczące bezpieczeństwa i prywatności? Czy model hybrydowy może funkcjonować, jeśli ilość danych sięgnie wielkości liczonych w petabajtach?