Powódź informacji
- 09.10.2012
Różne źródła dużych ilości danych sprawiają, że firmy mają problemy z ich pozyskiwaniem, formatowaniem i przechowywaniem. Oto najważniejsze bariery do pokonania w procesie korzystania z Big Data.
Sieć supermarketów Tesco zbiera 1,5 mln zapisów o sprzedaży tygodniowo. Służą one do analizy różnych aspektów sprzedaży. Dzięki temu można negocjować różne stawki w różnych miejscach i w różnym czasie oraz optymalizować rozłożenie towarów w sklepach, by osiągnąć najwyższy obrót przy najmniejszych kosztach.
Podobne badania prowadzi się w niektórych supermarketach w Polsce. Już 10 lat temu importowano tzw. rolki kasowe z systemów takich jak Anker i analizowano je za pomocą autorskiego oprogramowania wykorzystującego sieci neuronowe Kohonena. W polskich warunkach logi ze sprzedaży nadal są niedocenianym źródłem informacji o klientach.
Po pierwsze: koszty
Przy planowaniu inwestycji przedsiębiorstwa oczekują znacznie szybszego zwrotu z inwestycji (ROI) niż kilka lat temu. Menedżerowie spodziewają się osiągnięcia go w ciągu 12 miesięcy, co jest trudne przy składowaniu danych. "Storage wydaje się bezproblemową sprawą, ale trzeba na nią wydać pieniądze. Wydatek należy zaplanować nie tylko od strony inwestycji (CAPEX), ale także od strony kosztów operacyjnych (OPEX). Niekiedy koszt OPEX pomija się przy planowaniu projektów, a to poważny błąd. Samo zarządzanie danymi niestrukturalnymi w tradycyjnym modelu jest kosztowne" - mówi Bob Plumridge, CTO firmy Hitachi Data Systems dla regionu EMEA.
Po drugie: ilość informacji
Obecność różnych źródeł dużych ilości danych sprawia, że problemem staje się nawet samo efektywne przechowywanie informacji. Pojedyncze badanie diagnostyki medycznej może w wyniku dawać pliki o rozmiarach rzędu setek megabajtów, a zapis monitoringu wideo z jednego meczu piłkarskiego wiąże się z zapełnieniem setek gigabajtów przestrzeni dyskowej, to wyraźnie widać, że ilość danych rośnie szybciej niż oczekiwano. Bob Plumridge mówi: "Razem z rozmiarem zasobów rosną wyzwania związane z zarządzaniem nimi. Oprócz kosztów pojawiają się problemy z dostępem do składowanej informacji, ze sprawnym wyszukaniem jej i dostarczeniem do miejsc i aplikacji, które będą ją przetwarzać. Firmy gromadzące informacje jeszcze nie zdają sobie sprawy z problemów, przed którymi staną w przyszłości".
Po trzecie: "uwiązanie" danych
Najważniejszą z barier w efektywnym wykorzystaniu dużych zbiorów informacji jest różny format danych. Informację trzeba połączyć, by później móc ją analizować za pomocą jednego motoru. Przy aplikacjach transakcyjnych jest to proste zadanie, ale gdy dochodzi nawał informacji niestrukturalnej, firma nie potrafi sobie z tym poradzić. "W badaniach IDC pod względem ważności wygrywały dane transakcyjne. Oznacza to, że przedsiębiorstwa wiedzą, co zrobić z danymi transakcyjnymi. Aż 66% firm nie chce lub nie potrafi korzystać z informacji zapisanej w danych niestrukturalnych. A jest to największe pod względem objętości źródło" - wyjaśnia Bob Plumridge.
Od systemów transakcyjnych do plików wideo
Pod względem dynamiki wzrostu najwolniejsze są zasoby pochodzące z typowych, transakcyjnych aplikacji biznesowych. Chociaż dzisiejsze systemy ERP przechowują i przetwarzają o wiele więcej informacji niż ich odpowiedniki sprzed 5 lat, nadal wzrost jest stosunkowo niewielki i proporcjonalny do obrotów firmy. O tych źródłach można powiedzieć, że pochodzą wprost z działalności przedsiębiorstwa. Cechą charakterystyczną źródeł transakcyjnych jest ich uporządkowanie.
Dziesięciokrotnie większy wzrost notuje się w przypadku źródeł tworzonych przez ludzi i z nimi związanych. Są to: e-maile, logi z serwerów webowych, dokumenty biznesowe oraz informacje pochodzące z serwisów społecznościowych. Źródła z tej grupy są częściowo uporządkowane.
Największą dynamiką wzrostu cechują się dane pochodzące z serwisów wideo, obrazowania satelitarnego i medycznego, całej gamy sensorów i systemów z nimi związanych, a także nagrania. Dynamika wzrostu ilości informacji pochodzącej z tych źródeł jest stokrotnie wyższa od wzrostu danych pozyskiwanych bezpośrednio z biznesowych aplikacji transakcyjnych.
Systemy gromadzenia i przetwarzania informacji muszą nie tylko pozyskać, ale także przetworzyć i składować informację ze wszystkich źródeł. Objętość plików wideo i obrazowych oraz zasobów z serwisów maszyna-maszyna wielokrotnie przekracza uporządkowane zasoby bazodanowe.