Przemysł wyrachowany

Ważnym elementem modelu było wykrywanie trendów w wielkości strumienia surowca wpływającego i wypływającego ze zbiornika. Dwa kluczowe parametry wstępnego przekształcenia danych stanowiła liczba punktów wykorzystywanych przy obliczaniu średniej ruchomej oraz wielkość zmiany zmiennej sterującej uznawana za istotną. Optymalizację tych dwóch parametrów analizy połączono z optymalnym doborem liczności próby uwzględnianej w analizie. Na przykład za mała wartość progowej zmiany powodowała uzyskiwanie rozwiązań faworyzujących niewykonywanie żadnych zmian.

W wyniku analizy uzyskano rozwiązania o mniejszej i większej złożoności. Pomimo tego, że rozwiązanie o większej złożoności nieco lepiej przewidywało rzeczywiste zmiany, do stosowania wybrano prostsze rozwiązanie, ze względu na jego zgodność ze standardami przedsiębiorstwa. W wyniku analizy uzyskano zaskakująco dobry wynik w postaci prostego i skutecznego modelu. Działanie modeli zbadano dla oryginalnych, zapisywanych co 30 s danych, a model spisał się dobrze, pozwalając uniknąć zarówno przepełnienia, jak i opróżnienia zbiornika.

W drukarni

W drukarni R. R. Donneley występował tajemniczy problem polegający na pojawianiu się serii rys na walcu wykorzystywanym przy drukowaniu rotograwiurowym. Na wydrukach problem objawiał się jako kolorowe linie przecinające cały wydruk. Problem zaczął występować przy drukowaniu z szybkością ponad 300 mb/min. Celem analizy danych w tym przypadku było zminimalizowanie częstości występowania problemu.

Stosowana technologia powodowała, że każda przerwa w drukowaniu i ponowne uruchamianie procesu były bardzo kosztowne. Ponadto wystąpienie rysy powodowało marnotrawstwo matryc oraz dużych ilości papieru i farby drukarskiej. Usunięcie wady walca zajmowało średnio półtorej godziny, a w tym czasie cały proces był zatrzymany. Ponieważ terminy drukowania zazwyczaj są bardzo napięte, każde opóźnienie skutkowało dodatkowymi kosztami nadgodzin.

Przed rozpoczęciem projektu nie gromadzono żadnych danych. Na początku należało podjąć decyzję, jakie informacje mają być zbierane i zapisywane w bazie danych. Początkowo zdecydowano, że dla procesów poprawnych i wadliwych gromadzone będą dane m.in. o: wilgotności, temperaturze farby, lepkości farby, odczynie farby, napięciu i rodzaju papieru. Ostatecznie zestaw zbieranych informacji uzyskano na podstawie konsultacji z ekspertami, tworzenia kolejnych modeli i wybierania zmiennych istotnie wpływających na wystąpienie problemu.

Jako metodę modelowania zastosowano różne algorytmy drzew decyzyjnych. Ostatecznie w wyniku zastosowania dogłębnej analizy danych uzyskano zestaw reguł, które można było zastosować przy ustawianiu procesu produkcyjnego.

Wdrożenie reguł wydobytych z danych za pomocą data mining pozwoliło zmniejszyć liczbę wystąpień problemów w ciągu roku z 538 do 21. Reguły te nie wyjaśniły, dlaczego pojawiają się problemy, ale pozwoliły zmniejszyć częstość ich występowania. Łączny czas przestojów przed wprowadzeniem reguł przekraczał 800 godz. rocznie, a po ich zastosowaniu spadł do 30 godz. w ciągu roku. Doświadczenia uzyskane w drukarni, gdzie przeprowadzono oryginalny projekt, zostały przeniesione do innych zakładów. Chociaż same modele należało dostosować do każdej drukarni, to sposób rozwiązania problemu był ten sam.

Tomasz Demski jest specjalistą w firmie StatSoft Polska sp. z o.o.

Czym data mining różni się od tradycyjnych metod statystycznych?
  • Analiza dużych zbiorów danych

  • Nastawienie na praktyczne wyniki i zastosowania, a nie na budowę lub sprawdzanie teorii

  • Korzystanie z istniejących danych, na których zwartość badacz ma niewielki wpływ

  • Ocena modelu na podstawie próby testowej, a nie na podstawie wskaźników statystycznych
Za "duże" uznajemy takie zbiory danych, których człowiek nie jest w stanie objąć i wykorzystać bez pomocy komputera i specjalistycznego oprogramowania. Bardzo często w praktyce spotykamy się z sytuacją, gdy danych jest "za dużo", a głównym zadaniem we wnioskowaniu z danych jest odsianie bezużytecznej informacji.

Ważną częścią tradycyjnego badania statystycznego jest zaplanowanie doświadczenia, które da nam informacje podlegające właściwej analizie. W data mining mamy do czynienia z inną sytuacją: zazwyczaj analizujemy istniejące dane, gromadzone zwykle do innych celów niż analiza danych, i które, w pewnym sensie, są zbierane "przy okazji".

Przykładami typowych źródeł danych będą informacje z systemu automatyki przemysłowej (którego głównym celem jest sterowanie produkcją), systemu rejestrującego reklamacje zgłaszane przez klientów - służącego przede wszystkim do wspomagania rozwiązywania problemów klientów itp.

W data mining wykorzystuje się narzędzia pochodzące z trzech dziedzin - technologii bazodanowej (gromadzenie, udostępnianie i przetwarzanie danych), statystyki oraz uczenia maszyn i sztucznej inteligencji. W procesie data mining możemy wyróżnić cztery zasadnicze etapy:

(1) Przygotowanie danych, (2) Eksploracyjna analiza danych, (3) Właściwa analiza danych (budowa i ocena modelu lub odkrywanie wiedzy), (4) Wdrożenie i stosowanie modelu.

Warto zwrócić uwagę, że powyższe etapy nie przebiegają liniowo, jeden za drugim. Bardzo często na kolejnym etapie okazuje się, że powinniśmy wrócić do wcześniejszego (por. rysunek powyżej). Na etapie przygotowania danych decydujemy, z jakich informacji będziemy korzystać w analizie, pobieramy odpowiednie dane, sprawdzamy ich poprawność i dokonujemy odpowiednich przekształceń, aby zapewnić zgodność danych pochodzących z różnych źródeł.

Celem eksploracji danych jest poznanie ogólnych własności analizowanych danych: rozkładów jedno- i wielowymiarowych cech i podstawowych związków między zmiennymi. Wynikiem takiej wstępnej analizy jest wykrycie nietypowych przypadków. Po wykryciu odstających przypadków powinniśmy podjąć decyzję, jak będziemy z nimi postępować. Podczas eksploracji uzyskujemy również informacje, czy potrzebne i użyteczne będą jakieś przekształcenia oryginalnych danych. Przykładowo, w wyniku eksploracji danych może okazać się, że klasy zmiennej jakościowej występują tak rzadko, iż należy je połączyć z innymi.

Na etapie eksploracji danych bardzo często wykonujemy wstępną selekcję zmiennych, aby w dalszych analizach uwzględniać tylko te właściwości obiektów, które są istotne (np. wpływają na zmienną zależną). W razie wykrycia niejednorodności danych możemy pogrupować wszystkie przypadki (obiekty analiz) w jednorodne grupy i właściwą analizę wykonywać osobno dla grup.

Etap właściwej analizy danych rozpoczynamy od wstępnego doboru metod odpowiednich do rozwiązania problemu. Przy wyborze metody należy kierować się rodzajem problemu, wielkością zbioru danych, dopuszczalną złożonością modelu oraz wymaganiami odnośnie do możliwości interpretacji modelu.

Po wykonaniu analiz oceniamy, czy uzyskane wyniki są zadowalające. Kluczową sprawą jest, czy uzyskana informacja jest użyteczna z praktycznego punktu widzenia.

Zazwyczaj wykorzystujemy więcej niż jedną technikę analizy danych. Istnieje wiele różnych metod oceny modeli i wyboru najlepszego z nich. Często stosuje się techniki bazujące na porównawczej ocenie modeli (competitive evaluation of models), polegającej na stosowaniu poszczególnych metod dla tych samych zbiorów danych, a następnie wybraniu najlepszej z nich lub zbudowaniu modelu złożonego.

Techniki oceny i łączenia modeli (uważane często za kluczową część predykcyjnej eksploracji danych) to m.in.: agregacja modeli (głosowanie i uśrednianie; bagging), wzmacnianie (nazywane też losowaniem adaptacyjnym i łączeniem modeli, boosting), kontaminacja modeli (stacking, stacked generalizations) i metauczenie (meta-learning). Obszerne omówienie wskaźników jakości modeli i sposobów ich porównania znajduje się w ww. publikacjach źródłowych.


TOP 200