Mroczne sekrety zarządzania danymi

Solidna strategia zarządzania danymi może przynieść korzyści każdej firmie, która chce wykorzystać ich wartość. Mimo to droga do podejmowania decyzji w oparciu o dane jest pełna wyzwań i zagadek.

Mroczne sekrety zarządzania danymi

Fot. Pexels

Niektórzy nazywają dane nową ropą naftową. Inni nazywają je nowym złotem. Filozofowie i ekonomiści mogą spierać się o jakość tej metafory, ale nie ma wątpliwości, że organizowanie i analizowanie danych jest niezbędnym przedsięwzięciem dla każdego przedsiębiorstwa, które chce spełnić obietnicę podejmowania decyzji w oparciu o dane.

Aby tak się stało, kluczowa jest solidna strategia zarządzania danymi. Obejmując zarządzanie danymi, operacje na danych, hurtownie danych, inżynierię danych, analitykę danych, data science i wiele innych. Zarządzanie danymi, jeśli jest dobrze realizowane, może zapewnić firmom z każdej branży przewagę nad konkurencją.

Zobacz również:

  • Holandia ogranicza korzystanie z Google Chrome i ChromeOS
  • Silky Coders optymalizują działania LPP za sprawą data science
  • Zmiany klimatyczne to wyzwanie dla technologii i biznesu

Dobra wiadomość jest taka, że wiele aspektów zarządzania danymi jest dobrze rozumianych i opiera się na solidnych zasadach, które rozwijały się przez dziesięciolecia. Mogą one nie być łatwe do zastosowania lub proste do zrozumienia, ale dzięki naukowcom i matematykom firmy dysponują obecnie szeregiem logistycznych ram do analizowania danych i wyciągania wniosków. Co ważniejsze, dysponujemy również modelami statystycznymi, które wyznaczają granice naszej analizy.

Jednak mimo wszystkich pozytywów związanych z data science i różnymi dyscyplinami, które tę dziedzinę wspierają, czasami nadal pozostajemy z niewiadomymi. Przedsiębiorstwa często zderzają się z ograniczeniami tej dziedziny. Niektóre z paradoksów dotyczą praktycznych wyzwań związanych z gromadzeniem i organizowaniem tak dużej ilości danych. Inne mają charakter filozoficzny, sprawdzając naszą zdolność do rozumowania o abstrakcyjnych cechach. Do tego dochodzą jeszcze obawy związane z ochroną prywatności w związku z gromadzeniem tak dużej ilości danych.

Poniżej przedstawiamy niektóre z mrocznych tajemnic, które sprawiają, że zarządzanie danymi jest tak dużym wyzwaniem dla wielu przedsiębiorstw.

Dane niestrukturalne są trudne do analizy

Duża część danych przechowywanych w archiwach korporacyjnych nie ma żadnej struktury. Jeden z moich znajomych chciałby wykorzystać sztuczną inteligencję do przeszukiwania notatek tekstowych sporządzanych przez pracowników call center w jego banku. Zdania te mogą zawierać spostrzeżenia, które mogłyby pomóc w ulepszeniu oferty kredytowej i usług banku. Być może. Ale notatki były robione przez setki różnych osób, które miały różne pomysły na to, co zapisać w danej rozmowie. Co więcej, pracownicy mają różne style pisania i umiejętności. Niektórzy w ogóle nie pisali zbyt wiele. Inni zapisywali zbyt wiele informacji na temat danej rozmowy. Tekst sam w sobie nie ma jasnej struktury, ale jeśli mamy do czynienia ze stertą tekstów pisanych przez setki lub tysiące pracowników przez dziesiątki lat, to jakakolwiek struktura może być jeszcze słabsza.

Nawet ustrukturyzowane dane są często nieuporządkowane

Dobrzy data scientists i administratorzy baz danych prowadzą bazy danych, określając typ i strukturę każdego pola. Czasami, w imię lepszego określenia struktury, ograniczają wartości w danym polu do liczb całkowitych w określonych przedziałach lub do predefiniowanych wyborów. Nawet wtedy osoby wypełniające formularze przechowywane w bazie danych znajdują sposoby na dodawanie błędów i usterek. Czasami pola pozostają puste. Inni wstawiają myślnik lub inicjały "n.a.", gdy uważają, że pytanie nie ma zastosowania. Ludzie nawet swoje nazwiska piszą inaczej z roku na rok, z dnia na dzień, a nawet z wiersza na wiersz w tym samym formularzu. Dobrzy programiści mogą wychwycić niektóre z tych problemów dzięki walidacji. Dobrzy analitycy danych mogą również zmniejszyć część tej niepewności poprzez oczyszczanie danych. Jednak nadal szokujące jest to, że nawet w najbardziej uporządkowanych tabelach pojawiają się wątpliwe wpisy - i że te wątpliwe wpisy mogą wprowadzać niewiadome, a nawet błędy w analizie.

Schematy danych są albo zbyt ścisłe, albo zbyt luźne

Bez względu na to, jak bardzo zespoły ds. danych starają się określić ograniczenia schematu, powstałe schematy definiujące wartości w różnych polach danych są albo zbyt ścisłe, albo zbyt luźne. Jeśli zespół ds. danych wprowadzi ścisłe ograniczenia, użytkownicy skarżą się, że ich odpowiedzi nie znajdują się na wąskiej liście dopuszczalnych wartości. Jeśli schemat jest zbyt elastyczny, użytkownicy mogą dodawać dziwne wartości z niewielką konsekwencją. Właściwe dostrojenie schematu jest prawie niemożliwe.

Przepisy dotyczące danych są bardzo surowe

Przepisy dotyczące prywatności i ochrony danych są bardzo surowe i wciąż się zaostrzają. Regulacje takie jak GDPR, HIPPA i kilkanaście innych sprawiają, że gromadzenie danych może być bardzo trudne, a jeszcze bardziej niebezpieczne może być ich przetrzymywanie w oczekiwaniu na włamanie ze strony hakera. W wielu przypadkach łatwiej jest wydać więcej pieniędzy na prawników niż na programistów czy naukowców zajmujących się danymi. Z tego powodu niektóre firmy po prostu pozbywają się swoich danych tak szybko, jak tylko mogą się ich pozbyć.

Koszty oczyszczania danych są ogromne

Wielu naukowców zajmujących się danymi potwierdzi, że 90% pracy polega na zbieraniu danych, umieszczaniu ich w spójnej formie i radzeniu sobie z niekończącymi się dziurami lub błędami. Osoba posiadająca dane zawsze powie: "Wszystko jest w CSV i gotowe do pracy". Ale nie wspomina o pustych polach czy błędnych oznaczeniach. Łatwo jest poświęcić 10 razy więcej czasu na czyszczenie danych do wykorzystania w projekcie data science niż na uruchomienie rutyny w R lub Pythonie w celu wykonania analizy statystycznej.

Użytkownicy są coraz bardziej podejrzliwi w stosunku do twoich praktyk dotyczących danych

Użytkownicy końcowi i klienci stają się coraz bardziej podejrzliwi w stosunku do praktyk zarządzania danymi stosowanych przez firmy, a niektóre algorytmy sztucznej inteligencji i ich zastosowanie tylko potęgują te obawy, pozostawiając wiele osób zaniepokojonych tym, co dzieje się z danymi, które rejestrują każdy ich ruch. Te obawy napędzają regulacje prawne i często powodują, że firmy, a nawet data scientists o dobrych intencjach, wpadają w pułapkę public relations. Co więcej, ludzie celowo utrudniają gromadzenie danych, wprowadzając fałszywe wartości lub udzielając błędnych odpowiedzi. Czasami połowa pracy polega na radzeniu sobie ze złośliwymi partnerami i klientami.

Integracja danych zewnętrznych może przynieść korzyści - ale może też doprowadzić do katastrofy

Jedną rzeczą jest przejęcie przez firmę odpowiedzialności za gromadzone dane. Dział IT i data scientists mają nad tym kontrolę. Jednak coraz bardziej agresywne firmy zastanawiają się, jak zintegrować własne informacje z danymi zewnętrznymi i ogromem spersonalizowanych informacji w internecie. Niektóre narzędzia otwarcie obiecują, że będą zasysać dane o każdym kliencie, aby stworzyć spersonalizowane dossier na temat każdego zakupu. Tak, używają tych samych słów, co agencje ścigające terrorystów, aby śledzić zakupy w fast-foodach i punktację kredytową. Czy można się dziwić, że ludzie wpadają w niepokój i panikę?

Organy regulacyjne zaostrzają nadzór nad wykorzystywaniem danych

Nikt nie wie, kiedy sprytna analiza danych przekracza pewną granicę, ale kiedy już ją przekroczy, pojawiają się organy regulacyjne. W jednym z ostatnich przykładów z Kanady rząd zbadał, w jaki sposób niektóre sklepy z pączkami śledziły klientów, którzy robili zakupy także u konkurencji. W niedawnym komunikacie prasowym ogłoszono: "Dochodzenie wykazało, że umowa zawarta przez firmę Tim Hortons z amerykańskim zewnętrznym dostawcą usług lokalizacyjnych zawierała sformułowania tak niejasne i niedozwolone, że pozwalałyby one firmie sprzedawać zanonimizowane dane o lokalizacji do własnych celów". I po co? Aby sprzedać więcej pączków? Organy regulacyjne coraz częściej zwracają uwagę na wszystko, co wiąże się z danymi osobowymi.

Twój system danych może nie być tego wart

Wyobrażamy sobie, że genialny algorytm może sprawić, że wszystko stanie się bardziej wydajne i opłacalne. I czasami taki algorytm jest rzeczywiście możliwy, ale cena może być zbyt wysoka. Na przykład konsumenci - a nawet firmy - coraz częściej kwestionują wartość marketingu ukierunkowanego, który wynika z rozbudowanych systemów zarządzania danymi. Niektórzy wskazują na to, że często widzimy reklamy czegoś, co już kupiliśmy, ponieważ urządzenia śledzące reklamy nie zorientowały się, że nie jesteśmy już na rynku. Ten sam los czeka często inne sprytne schematy. Czasami rygorystyczna analiza danych pozwala zidentyfikować fabrykę, która osiąga najgorsze wyniki, ale nie ma to znaczenia, ponieważ firma podpisała 30-letnią umowę najmu na ten budynek. Firmy muszą być przygotowane na prawdopodobieństwo, że cały ten geniusz data science może przynieść odpowiedź, która nie będzie do zaakceptowania.

W ostatecznym rozrachunku decyzje dotyczące danych są często tylko ocenami

Liczby mogą być bardzo precyzyjne, ale często liczy się to, jak ludzie je interpretują. Po całej analizie danych i magii sztucznej inteligencji większość algorytmów wymaga podjęcia decyzji, czy dana wartość jest powyżej lub poniżej pewnego progu. Czasami naukowcy chcą, aby wartość p była niższa niż 0,05. Czasem policjant chce wlepiać mandaty samochodom przekraczającym o 20% dozwoloną prędkość. Te progi są często wartościami arbitralnymi. Mimo całej nauki i matematyki, jaką można zastosować do danych, wiele procesów "opartych na danych" ma więcej szarych stref niż chcielibyśmy wierzyć, pozostawiając decyzje w gestii instynktu, mimo wszystkich zasobów, jakie firma włożyła w swoje praktyki zarządzania danymi.

Koszty przechowywania danych gwałtownie rosną

Owszem, dyski twarde stają się coraz grubsze, a cena za terabajt spada, ale programiści gromadzą dane szybciej, niż spadają ich ceny. Urządzenia Internetu rzeczy (IoT) nieustannie przesyłają dane, a użytkownicy oczekują, że będą mogli w nieskończoność przeglądać bogaty zbiór tych bajtów. W międzyczasie urzędnicy ds. zgodności i organy regulacyjne proszą o coraz więcej danych na wypadek przyszłych audytów. Byłoby dobrze, gdyby ktoś faktycznie przejrzał niektóre z tych bitów, ale mamy tylko określony czas w ciągu dnia. Odsetek danych, do których faktycznie uzyskuje się dostęp, spada coraz niżej. A cena za przechowywanie rosnącego pakietu danych stale rośnie.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200