Big Data: liczy się zakres, a nie ilość danych

Przesadna koncentracja na gromadzeniu dużej liczby danych Big Data nie jest efektywna. Lepiej jest zadbać o ich zakres i różnorodność były jak największe, bo wtedy łatwiej jest uzyskać wartościowe informacje.

Dzisiejsze czasy są niezwykle ekscytujące, jeśli chodzi o rozwój Big Data. Wiele firm zdaje się jednać podchodzić do gromadzenia danych jak do gry w pokemony, w której rządzi zasada: „Złap je wszystkie!” A to wcale nie jest korzystne. Dane Atkinson, prezes organizacji SumAll oferującej platformy do analiz marketingowych, zachęca firmy do pogłębienia i poszerzenia horyzontów, czyli myślenia o danych w sposób kompleksowy, a nie tylko w kontekście ich ilości. Jak twierdzi, ich prawdziwa moc ujawnia się dopiero na przecięciu różnych informacji. Nie da się dokonać zaskakujących odkryć ani wysunąć wartościowych wniosków, jeśli nie połączy się ze sobą rozproszonych zbiorów danych.

W celu zobrazowania tej koncepcji, Dane Atkinson przywołuje metaforę pływów oceanicznych, w której należy najpierw zrozumieć wpływ Księżyca na funkcjonowanie oceanów, aby dostrzec zależność między pływami i oceanami.

Zobacz również:

Poza tym, im szerszym zakresem danych dysponujemy, tym mniejsze znaczenie ma ich ilość. Wcale nie potrzeba dużo danych, aby uzyskać właściwe rezultaty. Tę problematykę świetnie ilustruje przykład amerykańskiej platformy non-profit SumAll.org, która umożliwia wykorzystywanie danych dla dobra społecznego. Została ona wykorzystana przez władze miasta Nowy Jork i organizację pozarządową CAMBA do wsparcia walki z bezdomnością w ramach pilotażowego programu działań.

Jedną z głównych oznak zagrożenia bezdomnością są zawiadomienia o eksmisji, choć nie wszystkie z nich oznaczają, że dana rodzina wkrótce trafi na ulicę. Niemniej jednak, każdego roku z problemem bezdomności styka się 200 tysięcy nowojorskich gospodarstw domowych. W kontekście Big Data nie jest to może oszałamiają liczba rekordów, ale w tak dużym zbiorze danych prawdziwym wyzwaniem jest identyfikacja tych spośród 200 tysięcy rodzin, które na są najbardziej zagrożone bezdomnością.

Dotychczas organizacja CAMBA, której działania koncentrują się szczególnie w dzielnicy Brooklynu, każdego miesiąca ręcznie wertowała listę około 5 tysięcy nowych przypadków eksmisji, zgłoszonych w sądzie mieszkaniowym hrabstwa Kings. Następnie wysyłała informację o swoich usługach do rodzin mieszkających we wspomnianej dzielnicy – było o około 400 listów miesięcznie. Dzięki wsparciu platformy SumAl.org i marketingowym technikom kierowania powiadomień w oparciu o dane, organizacja CAMBA mogła znacznie zawęzić listę odbiorców.

Jak tego dokonano? W pierwszej kolejności oznaczono kodem geo-lokalizacyjnym wszystkie przypadki eksmisji na terytorium obsługiwanym przez CAMBA. Następnie poszerzono zakres danych o informacje zaciągnięte z innych zbiorów wskazujące na stopień zagrożenia danej rodziny bezdomnością. Informacje te dotyczyły m.in. wcześniejszych doświadczeń ze schroniskami i placówkami opieki zastępczej, wykształcenia, statusu zatrudnienia i wieku. Wiążąc ze sobą rozproszone zbiory danych, zidentyfikowano od 30 do 50 rodzin, które były najbardziej narażone na bezdomność w wyniku eksmisji. W ten sposób możliwe było jak najbardziej skuteczne wykorzystanie dostępnych zasobów i zaoferowanie wyłonionym rodzinom jak najlepszej pomocy.


TOP 200