Wielkie dane, mały budżet

Warto naśladować pionierów

Firma Catalist z Waszyngtonu, zajmująca się analizą i konsultingiem politycznym, doradzaniem w prowadzeniu kampanii wyborczych oraz aktywizacją wyborców, ma zbiór ponad 190 mln zarejestrowanych wyborców oraz 90 mln wyborców niezarejestrowanych. Ponadto na podstawie monitoringu rozmaitych publicznie dostępnych transakcji, np. na rynku nieruchomości lub zarejestrowanych transakcji kredytowych, posiada zbiór prawie 1 mld rekordów potencjalnych wyborców. Informacje są tak zarządzane i grupowane, by firmy organizujące kampanie wyborcze wiedziały, w jaki sposób dobrać odpowiednie strategie do profilu wyborców. Nie bez znaczenia jest efektywność i szybkość wyciągania i profilowania danych. Catalist potrafi zorganizować i pogrupować informacje w taki sposób, że komitet wyborczy ma możliwość zmiany lub poprawy wyborczej strategii w ciągu zaledwie kilku godzin.

Jeff Crigler, szef działu technologicznego Catalist, przyznaje, że wcześniej firma prowadziła zbiór danych w inny sposób. „Mieliśmy wielki bank danych, system firmy EMC, który pomału się zapełniał. Jego utrzymanie stawało się coraz droższe, a ponadto zużywał masę energii” – opowiada Crigler. Firma zbudowała więc cały klaster złożony z serwerów NAS, każdy o pojemności 1 petabajta. Właściwie całość wygląda jak pudło dysków z procesorem i według Criglera działa równie dobrze jak rozwiązania EMC. Wystarczy dobrze skonfigurowany skromny proces i odpowiednie oprogramowanie.

Zobacz również:

Już teraz widać, że firmy w USA zaczynają porzucać drogie rozwiązania sprzętowe (serwery, dyski etc.), których koszty nierzadko przekraczają 100 tys. USD, na rzecz tańszych, ale porównywalnych lub nawet efektywniejszych rozwiązań.

Takie nowoczesne rozwiązania serwerowe mają coraz większą moc obliczeniową. Zmiany z wielkich magazynów z danymi na rzecz mniejszych lokalnych punktów zbierania i przetwarzania danych można porównać do rozwoju sieci informatycznych – dawniej w budowę sieci zaangażowane były ogromne huby zlokalizowane w centrach informatycznych, dzisiaj taką samą pracę wykonuje zwykła karta sieciowa umieszczona w komputerze bądź serwerze. Specjaliści określili już nowy trend jako JBOD (Just a Bunch of Disks), zamiast ogromnych i drogich pakietów do magazynowania informacji. Dzięki temu zbieranie i przechowywanie danych może być na takim samym poziomie lub nieco niższym jak przy drogich rozwiązaniach, ale za 20% poprzednich kosztów.

Wspomniany Catalist zastąpił wcześniejsze urządzenia za 100 tys. USD czterema pakietami NAS za 40 tys. USD ok. półtora roku temu. W sumie firma zwiększyła objętość swoich przestrzeni dysków do magazynowania informacji czterokrotnie za znacznie niższą cenę.

Specjaliści uważają, że niebawem na rynku pojawi się więcej rozwiązań tego typu, co oczywiście spowoduje, że koszty dla firm będą mniejsze. Widać to choćby po ruchach potentatów, takich jak właśnie EMC, który przejmuje drobniejszych producentów urządzeń i oprogramowania do przechowywania danych.

Obecnie oferowane rozwiązania technologiczne pozwalają na zarządzanie skompresowanymi, zmagazynowanymi danymi niemal przez analityków bez konieczności ich rozpakowywania. Dzięki temu można prowadzić na nich prace (analizy biznesowe, dostosowywanie strategii marketingowych) bez konieczności ich dekompresowania. Takie udogodnienia oferuje m.in. system Vertica firmy Hewlett-Packard czy Greenplum firmy EMC. Oba są zaprojektowane jako systemy kolumnowe nowej generacji, dające użytkownikom lepsze możliwości pracy w środowisku danych niż systemy oparte na składowaniu danych w rzędach (tzw. Row Oriented Systems).

Różnica między systemem opartym na składowaniu kolumnowe a systemem opartym na składowaniu danych w rzędach polega m.in. na ilości duplikowanych danych. O ile w tradycyjnym systemie opartym na składowaniu danych w rzędach ilość tych samych danych powtarzała się wielokrotnie (np. miasto, nazwisko, ulica), o tyle w systemach kolumnowych dane są zmagazynowane na podstawie pewnego algorytmu, dzięki czemu w tej samej bazie danych np. nazwa miasta nie musi występować przy każdym nazwisku.

Jak przyznaje przedstawiciel Catalist, w bazie danych grupujących ok. 300 mln głosujących Amerykanów istnieje np. rekord „stan (miejsce zamieszkania)”. W systemie kolumnowym „stan” jest zarejestrowany jedynie 50 razy. Natomiast w tradycyjnym systemie opartym na rzędach „stan” jest zamieszczony przy każdym nazwisku, przez co jako rekord w bazie jest zduplikowany 300 mln razy.

Big Data na rynku pracy

Firma analityczna Gartner szacuje, że do 2015 r. w firmach na całym świecie będzie ok. 4,4 mln etatów, na których pracodawcy będą wymagać umiejętności analizowania i pracy w środowisku Big Data. Ale tylko jedna trzecia z tych miejsc pracy będzie wykorzystana – na rynku zapanuje deficyt specjalistów i analityków profesjonalnie zajmujących się zbiorami danych.

Do pracy w środowisku wielkich zbiorów danych wymagane są szczególne umiejętności, zdolności, wiedza i informacje. Nie wystarczy być doskonałym informatykiem lub inżynierem.

Vince Campisi, szef działu IT w firmie GE Software, uważa, że specjalista ds. Big Data musi być osobą, która nie tylko będzie potrafiła napisać sprytny algorytm do wyciągania odpowiednich danych z systemu. Taka osoba będzie musiała mieć także coś w rodzaju intuicji analitycznej, potrzebnej do grupowania danych w taki sposób, by móc wyciągać z nich informacje, których nie dałoby się pozyskać w inną drogą. Specjalista od Big Data będzie musiał budować modele analityczne, na których podstawie będzie mógł przewidywać np. zachowania klientów lub inne zdarzenia ważne z punktu widzenia przedsiębiorstwa.


TOP 200