Big Data odmieni działy IT

Przez ostatnie kilka lata rozwiązania Big Data szybko rozprzestrzeniały się w przedsiębiorstwach. Również działy IT nie mogły się jej oprzeć. Inicjatywy związane z danymi mają potencjał, aby dokonać transformacji działów IT, pełniących dziś rolę wsparcia biznesu, aby stały się centrami zysków.

Niezależnie od Big Data ogromne zmiany w IT spowodowała rosnąca skala, złożoność oraz dynamiczna natura centrów danych. Stosowany przez lata model autonomicznych systemów przestał wystarczać. Analityka Big Data w IT znalazła zastosowanie najpierw jako nowe podejście do zarządzania operacjami IT, umożliwiając inteligentniejsze funkcjonowanie. Niemal wszystkie nowoczesne systemy wspomagające działalność operacyjną IT zawierają w jakimś stopniu funkcje analityki danych. Jednakże, ponieważ w niektórych firmach wiedza przychodzi z oporem, efekty zastosowania Big Data nie zawsze okazują się sukcesem.

Projekty Big Data opierają się na czterech filarach: wielkości, szybkości, różnorodności i wiarygodności. Należy jednak dołączyć do nich jeszcze piąty filar – wartość. Każda inicjatywa Big Data powinna zaczynać się od pytania: „Osiągniecie jakiej wartości jest celem projektu?” Odpowiedź na to pytanie udzielona przez organizację powinno wskazywać, jakie środki są potrzebne, żeby osiągnąć ten cel. Niestety w praktyce często na ten piąty filar spuszcza się zasłonę milczenia.

Zobacz również:

Jak więc organizacja powinna się zachować, aby wydobyć jak maksimum ze swoich danych? Są trzy najważniejsze obszary, które wymagają szczególnej uwagi.

Grawitacja

Ten termin odnosi się do siły oddziaływania danych na usługi i aplikacje. To oddziaływanie odbywa się na dwa sposoby. Po pierwsze, bez danych aplikacje i usługi są bezużyteczne. Z tego powodu dostawcy usług i aplikacji w naturalny sposób grawitują w kierunku danych. Im większy zbiór danych, tym więcej usług i aplikacji można wokół niego zbudować.

Po drugie, im większy zbiór danych, tym trudniej go poruszyć. Ogólnie bardziej wydajne i ekonomiczne jest przetwarzanie danych jak najbliżej miejsca, w którym są one przechowywane. Zdarza się, że firmy korzystają z usług chmurowych do przetwarzania ich danych z wiązanych z działaniem działów IT. Jeśli te dane są przechowywane w tej samej chmurze, jest to dobre podejście. Również dane generowane lokalnie można przechowywać i analizować w chmurze, pod warunkiem, że nie są to duże ilości.

W przypadku dużych zbiorów danych generowanych poza chmurą pojawiają się jednak problemy. Przykładowo, użytkownik musi wyposażyć się w odpowiednią przepustowość, aby móc przesyłać dane do chmury. Nawet jeśli to zrobi, danych może być tak dużo, że upłynie kilka godzin, zanim będą dostępne. W takich przypadkach ważne, aby rozumieć, czym jest grawitacja danych, i przetwarzać je jak najbliżej miejsca, w którym powstają.

Jakość danych

Fraza „śmieci wchodzą, śmieci wychodzą” potwierdza się w Big Data. Niektóre źródła danych mogą zawierać dane niskiej jakości. Dobrym przykładem tego problemu są logi aplikacji. Wiele aplikacji rejestruje zbędne informacje, np. o wyjątkach czy błędach, obok informacji o normalnym działaniu. Włączając pełne rejestrowanie, zbiera się wiele przydatnych informacji, ale jednocześnie ogromną ilość szumu informacyjnego.

Innym przykładem tego problemu są systemy wykrywania zagrożeń. Generują one tysiące alertów każdego dnia, znacznie więcej, niż działy IT są w stanie zweryfikować. W efekcie alerty często są ignorowane, co sprawia, że informacje o faktycznych zagrożeniach giną w chaosie informacyjnym. Znalezienie wartościowych informacji w takim natłoku danych jest trudne. Jeśli czas reakcji jest istotny, szybkie przekopanie się przez te informacje nabiera ogromnego znaczenia. Niestety szanse na znalezienie na czas tego, co potrzebne, drastycznie spadają, jeśli nieistotnych informacji jest bardzo dużo.

Dane w ruchu

Czy dane, które mają być analizowane, znajdują się w spoczynku czy w ruchu? Odpowiedź na to pytanie ma ogromny wpływ na to, jak dane są przetwarzane i analizowane, jak również na wartość, którą można z nich wydobyć. Większość dużych zbiorów danych znajduje się w spoczynku i jest analizowana z wykorzystaniem procesów wsadowych, które wykorzystują indeksowanie i przetwarzanie równoległe realizowane, np. z użyciem MapReduce.

Zasadniczo to podejście sprowadza się do wielkości i różnorodności. Firmy wykorzystują różne rozwiązania do przechowywania danych: Hadoop, MongoDB czy Cassandra. Ponieważ korzystanie z wielu źródeł danych daje kontekst i wiedzę, to podejście zawsze będzie retrospektywne.

Obecnie większą wagę przykłada się do danych w ruch. Wynika to z faktu zapotrzebowania na większą szybkość analizowania danych. Duża szybkość analizowania danych w locie daje możliwość obserwowania w czasie rzeczywistym, jak zachowują się systemy i porównywania odczytów do średnich wartości. Ewentualnie, umożliwia również analizowanie przyczyn problemów, jeśli jakieś wystąpią. Chociaż dane w ruchu mogą dostarczyć bardzo dużo cennych informacji, ich analiza wymaga fundamentalnie innego podejścia, bazującego na przetwarzaniu strumieni oraz sumarycznych metrykach.

W wielu przypadkach ilość danych jest tak duża, że muszą być one przetwarzane w locie. W innych przypadkach informacje pozyskiwane w czasie rzeczywistym mają większą wartość. Przykładowo, dane przesyłane przez sieci kablowe są zbyt obszerne, aby je przechowywać, ale jednocześnie są niezwykle pomocne, jeśli trzeba odpowiedzieć na pytania o to, co dzieje się w środowisku IT w czasie rzeczywistym.


TOP 200