Szukanie trendów

W dążeniu do przewagi konkurencyjnej firmy szukają coraz skuteczniejszych sposobów przetwarzania i analizy rosnących zasobów danych.

Organizacje sięgają do własnych repozytoriów oraz danych zewnętrznych, w celu wyszukiwania trendów, statystyk i innych użytecznych informacji, które mają wspomagać proces podejmowania decyzji o kolejnym ruchu w biznesie. Te zbiory danych, wraz z powiązanymi z nimi narzędziami, platformami i analitykami, są często określane jako "Big Data" - terminem uzyskującym coraz większa popularność wśród osób zajmujących się technologiami i zarządzaniem.

Rozwiązania Big Data już udowodniły swoją przydatność w kilku dziedzinach. Organizacje takie jak NOAA (National Oceanic and Atmospheric Administration), NASA czy kilka dużych firm farmaceutycznych i koncernów energetycznych, mające zgromadzone olbrzymie zbiory danych, wykorzystują technologie Big Data w codziennych działaniach, w celu wydobycia z nich wartościowych informacji.

NOAA wykorzystuje podejście Big Data do wspomagania badań w zakresie klimatu, ekosystemów i zasobów wodnych. Natomiast NASA stosuje je m.in. do badań kosmicznych. Firmy farmaceutyczne i energetyczne korzystają z Big Data do bardziej konkretnych celów, takich jak testowanie medykamentów czy analiz geofizycznych (poszukiwanie złóż).

Big Data odgrywa też coraz większą rolę w dzisiejszym biznesie. Duże organizacje w coraz większym stopniu odczuwają potrzebę utrzymywania olbrzymich zbiorów danych strukturalizowanych i niestrukturalizowanych - od rekordów związanych z transakcjami, przechowywanych w hurtowniach danych, po rekordy pracownicze czy rekordy dostawców. Często jest to konieczność wynikająca z wymogu spełnienia obowiązujących przepisów - wewnętrznych i zewnętrznych. Taka potrzeba wynika też z przebiegu wielu procesów sądowych, zmuszających firmy do zachowywania coraz większej liczby dokumentów, wiadomości poczty elektronicznej i innych form komunikacji elektronicznej, jak komunikatory i telefonia IP, które mogą okazać się niezbędne jako materiały dowodowe w procesach sądowych, jeżeli pojawią się sprawy sporne.

Najważniejsza jest platforma

Prawdopodobnie największym wyzwaniem, z jakim mają do czynienia realizujący rozwiązania Big Data, jest uzyskanie platformy, która może przechowywać i zapewniać dostęp do wszystkich bieżących i przyszłych informacji oraz udostępnienie jej online dla analiz efektywnych pod względem kosztów. To oznacza jednak platformę wysoce skalowalną. Taka platforma składa się z technologii pamięci masowej, języka kwerend, narzędzi analityki, narzędzi analizy zawartości i infrastruktury transportowej. To oznacza dla IT wiele nowych elementów do wdrożenia i utrzymania.

Powstało wiele narzędzi własnych i open source dla tworzenia takich rozwiązań. Często są one dostarczane przez nowo powstałe firmy, ale także przez ugruntowanych na rynku dostawców technologii cloud, takich jak Amazon.com czy Google. W praktyce wykorzystanie cloud pomaga rozwiązać problem skalowalności Big Data - zarówno w obszarze pamięci masowej, jak i możliwości przetwarzania. Aczkolwiek Big Data niekoniecznie musi być typem wdrożenia rozwijanym we własnym zakresie. Wielcy dostawcy, tacy jak IBM czy EMC, oferują narzędzia dla projektów Big Data, chociaż ich cena może być wysoka i trudna do uzasadnienia.

Hadoop: serce większości projektów Big Data

W świecie open source znany jest projekt Hadoop, administrowany przez Apache Software Foundation, który opiera się na technologiach wywodzących się z Google i służy do tworzenia platform konsolidujących, łączących i rozpoznających znaczenie danych. Umożliwia tworzenie aplikacji działających w rozproszeniu, które przetwarzają olbrzymie zbiory danych.

Technicznie Hadoop składa się z dwóch kluczowych usług: niezawodnej pamięci masowej, wykorzystującej Hadoop Distributed File System (HDFS), i równoległego przetwarzania danych wykorzystującego technikę o nazwie MapReduce (Google). Zadaniem tych dwóch usług jest zapewnienie podstaw dla wdrożenia wydajnych i niezawodnych analiz, zarówno danych strukturalizowanych, jak i niestrukturalizowanych.

W wielu przypadkach przedsiębiorstwa wdrażają Hadoop obok swoich starych systemów IT, co pozwala na łączenie starych i nowych zbiorów danych w nowy sposób.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200