12 zagrożeń w przewidywaniu przyszłości

Analityka predyktywna nie wybacza. Popełnienie niektórych błędów w czasie analizy niemal gwarantuje nietrafione lub nieużyteczne prognozy, a nawet załamanie całego projektu.

Podczas przedsięwzięcia związanego z analizą predyktywną można popełnić wiele błędów, jednak niektóre pomyłki lub niedopatrzenia grożą poważnymi problemami w przyszłości. Projekt nie dostarczy działającego rozwiązania albo będzie ono nieużyteczne dla biznesu i spowoduje jedynie nadmierne koszty. Prezentujemy listę 12 najpoważniejszych błędów sporządzoną na podstawie opinii specjalistów z firm: Elder Research, Abbott Analytics oraz Prediction Impact.

Rozpoczęcie projektu bez określonego celu

Klasyczną przyczyną popełnienia takiego błędu jest ekscytacja technologią i potencjalną wartością biznesową przy braku określonego celu takich analiz. Przykładowe wdrożenie można opisać jako poszukiwanie produktu – dowolnego produktu – przeznaczonego później do sprzedaży. Gdy Elder Research przystąpiła do wstępnych analiz, okazało się, że żadna jednostka biznesowa u klienta nie wiedziała, w którym kierunku powinien nastąpić rozwój. Opracowany model dostarczał informacji, ale nikt nie wiedział, czym miałby być nowy produkt, a sam projekt wiódł donikąd. Jeff Deal, wiceprezes w firmie Elder Research, mówi: „Rozwiązanie zostało wdrożone, zarząd firmy korzysta z tych danych do swoich potrzeb i nadal ma nadzieję, że ktoś w przyszłości zda sobie sprawę z wartości uzyskanej informacji”.

Sprawdzić dane!

Problem z jakością danych wystąpił u dużego operatora telekomunikacyjnego w Stanach Zjednoczonych. W wynikach przeprowadzanych ankiet popularnym zawodem okazał się astronauta, co nie znajdowało pokrycia w rzeczywistości. Przyczyna była prosta – ankieter podczas rozmowy przez telefon wybierał pierwszy zawód z listy podpowiadanej przez oprogramowanie.

Utworzenie projektu, do którego nie będzie danych

Jeśli w przedsiębiorstwie jest bogate źródło informacji, należy się upewnić, że będą one wystarczające, by zasilić projekt. Problemy mogą dotyczyć nie tylko ograniczeń technicznych, ale także proceduralnych i historycznych. Firma Abbott Analytics była zaangażowana w budowę systemu analitycznego dla organizacji zajmującej się windykacją należności. Zadaniem projektu było odnalezienie sekwencji działań, która przynosiłaby najlepszy skutek. W firmie obowiązywały jednak ścisłe reguły postępowania. Dean Abbott, prezes Abbott Analytics, wyjaśnia: „Eksploracja danych jest sztuką tworzenia porównań. W tym przypadku nie było żadnych użytecznych danych, gdyż firma postępowała w ten sam sposób za każdym razem”.

Gdy danych nie ma, należy je utworzyć za pomocą zaplanowanych eksperymentów w odpowiedniej skali. Dla przykładu ustaloną pulę 1000 dłużników podzielono na dwie grupy, do pierwszej z nich (500 osób) kierowano list, do drugiej zadzwoniono. Dodatkowe dane zawierały historię długu, czas od ostatniej spłaty, przychód, kod pocztowy i inne. Dopiero wsparcie modelu przez wyniki eksperymentu umożliwiło użyteczne wnioskowanie, gdyż jak uważa Dean Abbott: „analiza predyktywna nie potrafi utworzyć informacji z niczego”.

Zbyt późne uruchomienie projektu w oczekiwaniu na idealne dane

Pokutuje błędne przekonanie, że przed rozpoczęciem projektu związanego z analityką predyktywną dostarczane do modelu dane muszą być doskonałej jakości, bez żadnych brakujących wartości, bezbłędnie uporządkowane. Ścisłe trzymanie się tego założenia skutkuje poważnymi opóźnieniami. Gdy Elder Research rozpoczynała projekt analityczny dla globalnej korporacji petrochemicznej, charakteryzujący się doskonałym zwrotem z inwestycji, naukowcy zajmujący się dostarczonymi porcjami informacji zauważyli, że jakość danych była gorsza, niż początkowo przewidywano. Brakowało kluczowej wartości, niezbędnej do dalszej analizy. Gdyby biznes musiał czekać na pozyskanie brakujących danych, projekt przedłużyłby się o rok. „Wiele projektów zatrzymuje się na tym etapie, oczekiwanie na doskonałej jakości informację zabija więcej projektów niż inne błędy” – mówi Jeff Deal.

Specjaliści od informacji przyzwyczajeni są do radzenia sobie z niekompletnymi i nieuporządkowanymi porcjami informacji, mają opracowaną metodologię działania i w wielu przypadkach potrafią obejść problem. Niekiedy brakujące wartości da się pozyskać z wystarczającą dokładnością na podstawie innych danych. Obecnie projekt się intensywnie rozwija, zaczyna już przynosić korzyści polegające na unikaniu przestojów spowodowanych awariami. Jeff Deal komentuje: „Gdyby trzeba było czekać na poprawienie jakości danych, projekt by upadł, gdyż priorytety biznesowe się zmieniają i danych niemal nigdy nie udaje się naprawić”.

Brak kontroli jakości danych i nieodsiewanie śmieci

Niedostateczna jakość danych przynosi nieoczekiwane wyniki. Eric Siegel, prezes firmy Prediction Impact, wspomina o projekcie realizowanym dla dużej korporacji finansowej z listy Fortune 1000. Projekt miał na celu wskazanie pracowników, którzy najdłużej będą pracować w firmowym call center. Po pierwszej analizie okazało się, że u pracowników, którzy nie ukończyli szkoły ponadpodstawowej, prawdopodobieństwo pozostania ponad dziewięć miesięcy było aż 2,6 razy wyższe niż w przypadku pozostałych. „Byliśmy bardzo blisko zaleceń, by firma nadała priorytet zgłoszeniom od ludzi, którzy nie ukończyli takiej szkoły. Okazało się jednak, że dane były wprowadzane ręcznie na podstawie CV, stosując przy tym niespójne oznaczenia” – stwierdza Eric Siegel.

W czasie ręcznego wprowadzania danych jeden pracownik oznaczał wszystkie poziomy wykształcenia, które występowały w profilu danego pracownika, a inny – tylko jeden poziom, ten najwyższy. Dodatkowo wprowadzano różne liczby ankiet przy różnym sposobie oznaczania. Eric Siegel komentuje: „Obowiązuje tu zasada GIGO – Garbage In, Garbage Out (śmieci włożysz, śmieci otrzymasz). Dane należy przed użyciem przetestować pod kątem integralności”.

Nie wszystko da się wdrożyć

Opracowywanie systemów, które mają służyć do analizy istniejących danych i wnioskowania o tym, co będzie w przyszłości, jest trudne i złożone. Większość projektów w tej dziedzinie zawiera błędy, gdyż całkowite ominięcie problemów jest trudne, niezależnie od doświadczenia ludzi, którzy są w taki projekt zaangażowani. Specjaliści, tacy jak John Elder, CEO firmy Elder Research zajmującej się analizą danych, uważają, że wiele z tych błędów nie było bezpośrednią przyczyną załamania projektu, a niemal każdy model można poprawić. Mimo to dużo projektów upada i nie przynosi żadnej korzyści dla biznesu, pozostawiając po sobie jedynie koszty inwestycyjne w oprogramowanie i czas. Projekty upadają, chociaż udało się wykreować użyteczny model. Elder uważa, że 90% projektów w jego firmie to „techniczny sukces”, ale w organizacjach, które są klientami Elder Research, wdraża się zaledwie 65% z tych 90% technicznie poprawnych rozwiązań.

Dane z przyszłości do przewidywania przyszłości

Informacja w bazach danych nigdy nie jest statyczna, podlega ciągłym zmianom, jest aktualizowana praktycznie na bieżąco. Tymczasem analiza predyktywna zakłada proces uczenia modelu i badania jego reakcji na danych historycznych lub treningowych. W takim przypadku należy odtworzyć dane z wcześniejszego stanu bazy. Jeśli rekordy nie są oznaczone datą i czasem, wśród zestawu treningowego łatwo mogą się znaleźć informacje z przyszłości, które skutkują błędną pracą modelu – a zatem błędami w przyszłym wnioskowaniu.

Na podobny problem napotkał regionalny klub miłośników motoryzacji, gdy chciał zbudować model mający na celu wskazanie członków, którzy najchętniej kupiliby konkretne ubezpieczenie. Utworzono drzewo decyzji ze zmienną zawierającą telefon, faks lub adres e-mail. Gdy do tej zmiennej podstawiono dowolny tekst, wynik modelu był za każdym razem 100% pozytywny. Ponieważ wyniki były zbyt dobre, by były prawdziwe, specjaliści z Elder Research zaczęli pytać o szczegóły. Elder wyjaśnia: „Okazało się, że zmienna użyta w modelu określała również, w jaki sposób członkowie stowarzyszenia rozwiązali umowę ubezpieczeniową. Nie można rozwiązać umowy, jeśli się wcześniej nie kupiło ubezpieczenia”.

Aby uniknąć tego typu błędów, należy przy modelowaniu zamrozić część danych i użyć informacji z przeszłości.

Nadmierne przyspieszanie projektu, bo „dane są świetne”

Jak podaje firma Elder Research, przygotowanie danych do projektu analizy predykcyjnej zajmuje od 60 do 80% ogółu czasu. Analitycy pozyskują dane z różnych źródeł, łączą tabele, dokonują agregacji, przy czym proces ten niekiedy może trwać nawet rok. Chociaż niektóre firmy są przekonane, że ich dane są nieskazitelnie dobre, Abbot twierdzi, że nigdy nie widział organizacji z doskonałej jakości danymi. Problemy zawsze się pojawią.

Gdy firma farmaceutyczna wynajęła Elder Research, postanowiła skrócić czas przygotowania danych, by przyspieszyć projekt i zmniejszyć koszty. Tymczasem zaraz po starcie projektu odkryto, że w niektórych rekordach data wysłania była wcześniejsza od daty zamówienia. Problem można było naprawić, ale to wymagało czasu i środków w budżecie. Osoby odpowiedzialne za projekt musiały zwrócić się do zarządu i poinformować o opóźnieniach, co uznano za naruszenie zaufania i wiarygodności.

Należy się spodziewać problemów nawet wtedy, gdy wszyscy uważają, że dane są dobre. Lepiej podchodzić konserwatywnie i potem odnieść sukces, niż mieć na koncie przekroczenie czasu i budżetu.

Przerost ambicji

Duża firma z sektora farmaceutycznego miała olbrzymie plany rozwoju, według zarządzających były zbyt duże i pewne, by zawieść. Gdy rozpoczynano projekt analizy predyktywnej, celem było narzędzie, które w zamierzeniach miało zrewolucjonizować cały przemysł zdrowotny. Okazało się jednak, że cel był zbyt duży dla niewielkiego zespołu klienta i wymagał zbyt dużych inwestycji. Projekt załamał się więc pod wagą przerosłych ambicji firmy. Jeff Deal wyjaśnia: „Jeśli nie widać szybko rezultatów pracy, nie ma nic, co zachęcałoby do utrzymania dużego poziomu inwestycji. Należy zatem określić nieduży cel, będący w zasięgu możliwości, osiągnąć sukces, a następnie tą drogą budować dalszy rozwój”.

Ignorowanie opinii ekspertów przy budowaniu modelu

Systemy analityczne są często traktowane jako czarna skrzynka, która nakarmiona danymi dostarczy oczekiwanych wyników. Tymczasem specjaliści nadal są w cenie, gdyż bez ich pracy wyniki algorytmów predykcyjnych bywają błędne. Ten problem spotkał firmę zajmującą się naprawą komputerów, która zamówiła system analityczny w Abbott Analytics. Biznes potrzebował narzędzia, które potrafiłoby przewidzieć listę części niezbędnych do naprawy na podstawie treści zgłoszenia. Abbott mówi: „Trudno wykorzystać tekst do analizy predykcyjnej, gdyż język jest niejednoznaczny, a biznes oczekiwał dokładności na poziomie 90%”. Pierwsze podejście wykorzystywało słowa kluczowe, którym przypisywano wartości 1 lub 0, ale wynik działania modelu był porażką. Należało pozyskać więcej informacji od techników zajmujących się naprawami. Abbot wyjaśnia: „Tajemnicą jest pobranie danych, które już się ma, i uzupełnienie ich o atrybuty dostarczające jeszcze więcej informacji”. Po konsultacjach z ekspertami u klienta opracowano kilkanaście zmiennych, powiązanych z listą części, które kiedyś były potrzebne. Później przypisano obecność poszczególnych słów do historii napraw – to przyniosło sukces. W ten sposób, zamiast wykonywać ciągle te same porównania dla różnych przypadków, zbliżono się do tego, jak być może myśli ekspert.

Założenie świetnej współpracy ze strony dostarczycieli danych

Wiele projektów analitycznych załamuje się wskutek problemów związanych ze współpracą. Najważniejszą przeszkodą na drodze do rozwoju mogą okazać się ludzie, którzy są właścicielami danych, którzy je kontrolują albo sprawują pieczę nad tym, w jaki sposób akcjonariusze mogą wykorzystywać informacje. Właśnie to było przeszkodą przy budowie systemu analizy predykcyjnej w firmie zajmującej się masowymi, krótkoterminowymi pożyczkami. Jeff Deal wspomina: „Projekt nigdy nie wyszedł poza początkowe stadium, głównie dlatego, że ludzie, którzy mieli być integralną częścią zespołu, nie byli jego zwolennikami. Dział IT kontrolował dane i niechętnie wypuszczał je do grupy zajmującej się analizą. Firma wydała setki tysięcy dolarów na utworzenie modeli tylko po to, by zarząd wstrzymał rozwój projektu na trzy lata”. Tak długi czas faktycznie oznaczał zamknięcie przedsięwzięcia. Chociaż projekt zbierał dane i analizował statystyki, nigdy nie był użyty do podejmowania decyzji biznesowych, co znaczy, że był stratą czasu i pieniędzy.

Aby uniknąć problemów kompetencyjnych, należy zbudować ogólne porozumienie i uzyskać wsparcie na poziomie członków zarządu firmy.

Brak planów zastosowania w biznesie

Firmy często uważają, że końcowym stadium projektu jest przygotowanie modelu, który dostarcza danych, i nie dbają o jego wykorzystanie w biznesie. Wynikiem może być prosty arkusz przekazany jednej osobie, ale także skomplikowany system z różnymi źródłami. Większość organizacji należy do tej drugiej grupy. Firmy takie muszą kupić drogie oprogramowanie, a potem zintegrować system, by pobierał dane. Wyniki należy dostarczyć do narzędzi wizualizacyjnych lub analitycznych, by ludzie mogli przeczytać i dokonać interpretacji otrzymanych wielkości i trendów. Proces ten czasami może wymagać więcej pracy niż sama budowa modelu.

Przykładem skomplikowanego wdrożenia było uruchomienie narzędzi antyfraudowych w biurze generalnego inspektora amerykańskiej poczty U.S. Postal Service. Narzędzie miało na celu ocenę transakcji, by wychwycić te, które wydają się podejrzane. Początkowo śledczy ignorowali modele, ale narzędzie dało im dostęp do danych niezbędnych podczas śledztw. Grupa robocza zaproponowała zatem przedstawienie danych w postaci mapy, łatwiejszej do przyswojenia. W końcu śledczy zaczęli doceniać zarówno mapę, jak i model, który ją zasila. Obecnie z tego oprogramowania korzysta ponad 1000 śledczych.

Pozbywanie się modeli, które dają oczywiste wyniki

Pewna firma z branży rozrywkowej postanowiła poznać sposób odzyskania cennych klientów, którzy odeszli. Abbot Analytics opracował model, z którego wynikało, że w 95% przypadków większość takich klientów wraca. „Wyniki modelu początkowo były oczywiste. Klienci, którzy przychodzili co miesiąc od kilku lat, a potem przestali korzystać z usług przez kilka miesięcy, zazwyczaj wracali sami, bez żadnych działań” – mówi Abbot. Biznes szybko zdał sobie sprawę, że do tak oczywistych wniosków nie potrzebuje drogiego modelu. Należy jednak pamiętać, że modele analizy predykcyjnej mogą przynosić nadzwyczajną wartość dla firmy, jeśli potrafią odróżnić odchylenia od oczywistych trendów. Abbott wyjaśnia: „Zamiast pozbywać się modelu i zatrzymać rozwój, skoncentrowano się na tych klientach, którzy według modelu powinni wrócić, ale tego nie zrobili. To były anomalie, które należało zbadać za pomocą nowego programu. Ponieważ potrafiliśmy określić z dużym prawdopodobieństwem powrót klienta, każdy, kto nie wrócił, należał do zbioru anomalii. Ci klienci wymagali zatem działań”.

Badania przyniosły jednak kolejny problem – firma nie posiadała informacji od klientów na temat przyczyny odejścia, a takich informacji model nie mógł dostarczyć. Niezbędne było zatem określenie przyczyny odejścia klientów – to wymagało nowych danych i nowego modelu, a potem dotrzeć do tych klientów na przykład z nową ofertą.

Nieprecyzyjnie określone zastosowanie biznesowe modelu

Firma Abbott opracowywała kiedyś model, który miał przewidywać błędy odczytu kodów kreskowych. Problem polegał na tym, że obliczenia musiały być przeprowadzone w czasie krótszym niż 1/500 sekundy, by urządzenie mogło podjąć działania mechaniczne, gdy dokument znajdował się jeszcze przed czytnikiem. Można było opracować doskonały algorytm, ale byłby on bezużyteczny, jeśli nie dostarczyłby danych w oczekiwanym czasie. Oznaczało to konieczność pójścia na kompromis, a sam model musiał być prosty, by zmieścić się w czasie. Ograniczenia musiały być dokładnie określone w specyfikacji projektu. Niestety, takiego sposobu myślenia nie uczą na uniwersytetach – zbyt wielu ludzi zbudowało dobre modele, ale nie wiedzieli, w jaki sposób model ten będzie wykorzystywany w praktyce.

Na podstawie: 12 predictive analytics screw-ups, Robert L. Mitchell, July 24, 2013 (Computerworld)