Powódź informacji

Różne źródła dużych ilości danych sprawiają, że firmy mają problemy z ich pozyskiwaniem, formatowaniem i przechowywaniem. Oto najważniejsze bariery do pokonania w procesie korzystania z Big Data.

Tesco zwiększa obroty dzięki analizom sprzedaży

Sieć supermarketów Tesco zbiera 1,5 mln zapisów o sprzedaży tygodniowo. Służą one do analizy różnych aspektów sprzedaży. Dzięki temu można negocjować różne stawki w różnych miejscach i w różnym czasie oraz optymalizować rozłożenie towarów w sklepach, by osiągnąć najwyższy obrót przy najmniejszych kosztach.

Podobne badania prowadzi się w niektórych supermarketach w Polsce. Już 10 lat temu importowano tzw. rolki kasowe z systemów takich jak Anker i analizowano je za pomocą autorskiego oprogramowania wykorzystującego sieci neuronowe Kohonena. W polskich warunkach logi ze sprzedaży nadal są niedocenianym źródłem informacji o klientach.

Ilość dostępnych informacji w firmach rośnie radykalnie i można się spodziewać jej dalszego wzrostu w tempie wykładniczym. Większość zapisanych danych już teraz pochodzi ze źródeł o wysokiej dynamice wzrostu. Takie dane mogą mieć wielką wartość dla firmy, ale przed przetworzeniem należy je pozyskać, dostosować do właściwego formatu, przechować. Te zadania są obecnie zbyt trudne dla wielu firm.

Po pierwsze: koszty

Przy planowaniu inwestycji przedsiębiorstwa oczekują znacznie szybszego zwrotu z inwestycji (ROI) niż kilka lat temu. Menedżerowie spodziewają się osiągnięcia go w ciągu 12 miesięcy, co jest trudne przy składowaniu danych. "Storage wydaje się bezproblemową sprawą, ale trzeba na nią wydać pieniądze. Wydatek należy zaplanować nie tylko od strony inwestycji (CAPEX), ale także od strony kosztów operacyjnych (OPEX). Niekiedy koszt OPEX pomija się przy planowaniu projektów, a to poważny błąd. Samo zarządzanie danymi niestrukturalnymi w tradycyjnym modelu jest kosztowne" - mówi Bob Plumridge, CTO firmy Hitachi Data Systems dla regionu EMEA.

Po drugie: ilość informacji

Obecność różnych źródeł dużych ilości danych sprawia, że problemem staje się nawet samo efektywne przechowywanie informacji. Pojedyncze badanie diagnostyki medycznej może w wyniku dawać pliki o rozmiarach rzędu setek megabajtów, a zapis monitoringu wideo z jednego meczu piłkarskiego wiąże się z zapełnieniem setek gigabajtów przestrzeni dyskowej, to wyraźnie widać, że ilość danych rośnie szybciej niż oczekiwano. Bob Plumridge mówi: "Razem z rozmiarem zasobów rosną wyzwania związane z zarządzaniem nimi. Oprócz kosztów pojawiają się problemy z dostępem do składowanej informacji, ze sprawnym wyszukaniem jej i dostarczeniem do miejsc i aplikacji, które będą ją przetwarzać. Firmy gromadzące informacje jeszcze nie zdają sobie sprawy z problemów, przed którymi staną w przyszłości".

Po trzecie: "uwiązanie" danych

Najważniejszą z barier w efektywnym wykorzystaniu dużych zbiorów informacji jest różny format danych. Informację trzeba połączyć, by później móc ją analizować za pomocą jednego motoru. Przy aplikacjach transakcyjnych jest to proste zadanie, ale gdy dochodzi nawał informacji niestrukturalnej, firma nie potrafi sobie z tym poradzić. "W badaniach IDC pod względem ważności wygrywały dane transakcyjne. Oznacza to, że przedsiębiorstwa wiedzą, co zrobić z danymi transakcyjnymi. Aż 66% firm nie chce lub nie potrafi korzystać z informacji zapisanej w danych niestrukturalnych. A jest to największe pod względem objętości źródło" - wyjaśnia Bob Plumridge.

Od systemów transakcyjnych do plików wideo

Pod względem dynamiki wzrostu najwolniejsze są zasoby pochodzące z typowych, transakcyjnych . Chociaż dzisiejsze systemy ERP przechowują i przetwarzają o wiele więcej informacji niż ich odpowiedniki sprzed 5 lat, nadal wzrost jest stosunkowo niewielki i proporcjonalny do obrotów firmy. O tych źródłach można powiedzieć, że pochodzą wprost z działalności przedsiębiorstwa. Cechą charakterystyczną źródeł transakcyjnych jest ich uporządkowanie.

Dziesięciokrotnie większy wzrost notuje się w przypadku źródeł tworzonych przez ludzi i z nimi związanych. Są to: e-maile, logi z serwerów webowych, dokumenty biznesowe oraz informacje pochodzące z serwisów społecznościowych. Źródła z tej grupy są częściowo uporządkowane.

Największą dynamiką wzrostu cechują się dane pochodzące z serwisów wideo, obrazowania satelitarnego i medycznego, całej gamy sensorów i systemów z nimi związanych, a także nagrania. Dynamika wzrostu ilości informacji pochodzącej z tych źródeł jest stokrotnie wyższa od wzrostu danych pozyskiwanych bezpośrednio z biznesowych aplikacji transakcyjnych.

Systemy gromadzenia i przetwarzania informacji muszą nie tylko pozyskać, ale także przetworzyć i składować informację ze wszystkich źródeł. Objętość plików wideo i obrazowych oraz zasobów z serwisów maszyna-maszyna wielokrotnie przekracza uporządkowane zasoby bazodanowe.


TOP 200