Przemysł wyrachowany

Subskrybuj RSS A A A
21 lutego 2005
Tomasz Demski

Dogłębna analiza danych nie jest domeną jedynie sprzedaży czy marketingu. Może być bardzo użyteczna także
w przemyśle, w tym przypadku występuje jednak więcej zmiennych i parametrów.

Ważnym elementem modelu było wykrywanie trendów w wielkości strumienia surowca wpływającego i wypływającego ze zbiornika. Dwa kluczowe parametry wstępnego przekształcenia danych stanowiła liczba punktów wykorzystywanych przy obliczaniu średniej ruchomej oraz wielkość zmiany zmiennej sterującej uznawana za istotną. Optymalizację tych dwóch parametrów analizy połączono z optymalnym doborem liczności próby uwzględnianej w analizie. Na przykład za mała wartość progowej zmiany powodowała uzyskiwanie rozwiązań faworyzujących niewykonywanie żadnych zmian.

W wyniku analizy uzyskano rozwiązania o mniejszej i większej złożoności. Pomimo tego, że rozwiązanie o większej złożoności nieco lepiej przewidywało rzeczywiste zmiany, do stosowania wybrano prostsze rozwiązanie, ze względu na jego zgodność ze standardami przedsiębiorstwa. W wyniku analizy uzyskano zaskakująco dobry wynik w postaci prostego i skutecznego modelu. Działanie modeli zbadano dla oryginalnych, zapisywanych co 30 s danych, a model spisał się dobrze, pozwalając uniknąć zarówno przepełnienia, jak i opróżnienia zbiornika.

W drukarni

W drukarni R. R. Donneley występował tajemniczy problem polegający na pojawianiu się serii rys na walcu wykorzystywanym przy drukowaniu rotograwiurowym. Na wydrukach problem objawiał się jako kolorowe linie przecinające cały wydruk. Problem zaczął występować przy drukowaniu z szybkością ponad 300 mb/min. Celem analizy danych w tym przypadku było zminimalizowanie częstości występowania problemu.

Stosowana technologia powodowała, że każda przerwa w drukowaniu i ponowne uruchamianie procesu były bardzo kosztowne. Ponadto wystąpienie rysy powodowało marnotrawstwo matryc oraz dużych ilości papieru i farby drukarskiej. Usunięcie wady walca zajmowało średnio półtorej godziny, a w tym czasie cały proces był zatrzymany. Ponieważ terminy drukowania zazwyczaj są bardzo napięte, każde opóźnienie skutkowało dodatkowymi kosztami nadgodzin.

Przed rozpoczęciem projektu nie gromadzono żadnych danych. Na początku należało podjąć decyzję, jakie informacje mają być zbierane i zapisywane w bazie danych. Początkowo zdecydowano, że dla procesów poprawnych i wadliwych gromadzone będą dane m.in. o: wilgotności, temperaturze farby, lepkości farby, odczynie farby, napięciu i rodzaju papieru. Ostatecznie zestaw zbieranych informacji uzyskano na podstawie konsultacji z ekspertami, tworzenia kolejnych modeli i wybierania zmiennych istotnie wpływających na wystąpienie problemu.

Jako metodę modelowania zastosowano różne algorytmy drzew decyzyjnych. Ostatecznie w wyniku zastosowania dogłębnej analizy danych uzyskano zestaw reguł, które można było zastosować przy ustawianiu procesu produkcyjnego.

Wdrożenie reguł wydobytych z danych za pomocą data mining pozwoliło zmniejszyć liczbę wystąpień problemów w ciągu roku z 538 do 21. Reguły te nie wyjaśniły, dlaczego pojawiają się problemy, ale pozwoliły zmniejszyć częstość ich występowania. Łączny czas przestojów przed wprowadzeniem reguł przekraczał 800 godz. rocznie, a po ich zastosowaniu spadł do 30 godz. w ciągu roku. Doświadczenia uzyskane w drukarni, gdzie przeprowadzono oryginalny projekt, zostały przeniesione do innych zakładów. Chociaż same modele należało dostosować do każdej drukarni, to sposób rozwiązania problemu był ten sam.

Tomasz Demski jest specjalistą w firmie StatSoft Polska sp. z o.o.

Czym data mining różni się od tradycyjnych metod statystycznych?
  • Analiza dużych zbiorów danych
  • Nastawienie na praktyczne wyniki i zastosowania, a nie na budowę lub sprawdzanie teorii
  • Korzystanie z istniejących danych, na których zwartość badacz ma niewielki wpływ
  • Ocena modelu na podstawie próby testowej, a nie na podstawie wskaźników statystycznych
Za "duże" uznajemy takie zbiory danych, których człowiek nie jest w stanie objąć i wykorzystać bez pomocy komputera i specjalistycznego oprogramowania. Bardzo często w praktyce spotykamy się z sytuacją, gdy danych jest "za dużo", a głównym zadaniem we wnioskowaniu z danych jest odsianie bezużytecznej informacji.

Ważną częścią tradycyjnego badania statystycznego jest zaplanowanie doświadczenia, które da nam informacje podlegające właściwej analizie. W data mining mamy do czynienia z inną sytuacją: zazwyczaj analizujemy istniejące dane, gromadzone zwykle do innych celów niż analiza danych, i które, w pewnym sensie, są zbierane "przy okazji".

Przykładami typowych źródeł danych będą informacje z systemu automatyki przemysłowej (którego głównym celem jest sterowanie produkcją), systemu rejestrującego reklamacje zgłaszane przez klientów - służącego przede wszystkim do wspomagania rozwiązywania problemów klientów itp.

W data mining wykorzystuje się narzędzia pochodzące z trzech dziedzin - technologii bazodanowej (gromadzenie, udostępnianie i przetwarzanie danych), statystyki oraz uczenia maszyn i sztucznej inteligencji. W procesie data mining możemy wyróżnić cztery zasadnicze etapy:

(1) Przygotowanie danych, (2) Eksploracyjna analiza danych, (3) Właściwa analiza danych (budowa i ocena modelu lub odkrywanie wiedzy), (4) Wdrożenie i stosowanie modelu.

Warto zwrócić uwagę, że powyższe etapy nie przebiegają liniowo, jeden za drugim. Bardzo często na kolejnym etapie okazuje się, że powinniśmy wrócić do wcześniejszego (por. rysunek powyżej). Na etapie przygotowania danych decydujemy, z jakich informacji będziemy korzystać w analizie, pobieramy odpowiednie dane, sprawdzamy ich poprawność i dokonujemy odpowiednich przekształceń, aby zapewnić zgodność danych pochodzących z różnych źródeł.

Celem eksploracji danych jest poznanie ogólnych własności analizowanych danych: rozkładów jedno- i wielowymiarowych cech i podstawowych związków między zmiennymi. Wynikiem takiej wstępnej analizy jest wykrycie nietypowych przypadków. Po wykryciu odstających przypadków powinniśmy podjąć decyzję, jak będziemy z nimi postępować. Podczas eksploracji uzyskujemy również informacje, czy potrzebne i użyteczne będą jakieś przekształcenia oryginalnych danych. Przykładowo, w wyniku eksploracji danych może okazać się, że klasy zmiennej jakościowej występują tak rzadko, iż należy je połączyć z innymi.

Na etapie eksploracji danych bardzo często wykonujemy wstępną selekcję zmiennych, aby w dalszych analizach uwzględniać tylko te właściwości obiektów, które są istotne (np. wpływają na zmienną zależną). W razie wykrycia niejednorodności danych możemy pogrupować wszystkie przypadki (obiekty analiz) w jednorodne grupy i właściwą analizę wykonywać osobno dla grup.

Etap właściwej analizy danych rozpoczynamy od wstępnego doboru metod odpowiednich do rozwiązania problemu. Przy wyborze metody należy kierować się rodzajem problemu, wielkością zbioru danych, dopuszczalną złożonością modelu oraz wymaganiami odnośnie do możliwości interpretacji modelu.

Po wykonaniu analiz oceniamy, czy uzyskane wyniki są zadowalające. Kluczową sprawą jest, czy uzyskana informacja jest użyteczna z praktycznego punktu widzenia.

Zazwyczaj wykorzystujemy więcej niż jedną technikę analizy danych. Istnieje wiele różnych metod oceny modeli i wyboru najlepszego z nich. Często stosuje się techniki bazujące na porównawczej ocenie modeli (competitive evaluation of models), polegającej na stosowaniu poszczególnych metod dla tych samych zbiorów danych, a następnie wybraniu najlepszej z nich lub zbudowaniu modelu złożonego.

Techniki oceny i łączenia modeli (uważane często za kluczową część predykcyjnej eksploracji danych) to m.in.: agregacja modeli (głosowanie i uśrednianie; bagging), wzmacnianie (nazywane też losowaniem adaptacyjnym i łączeniem modeli, boosting), kontaminacja modeli (stacking, stacked generalizations) i metauczenie (meta-learning). Obszerne omówienie wskaźników jakości modeli i sposobów ich porównania znajduje się w ww. publikacjach źródłowych.

Oceń artykuł

średnio: 0 liczba ocen: 0
« wstecz 1  2 

Komentarze (0)

Najnowsze

Państwo do konsolidacji

Obywatele uważają administrację publiczną za jeden organizm. W rzeczywistości jest to kilka tysięcy oddzielnych struktur, obrosłych biurokratycznymi naroślami. Czy można zracjonalizować działanie państwa? Jak w tym może pomóc informatyka?

e-Sąd z odsieczą sprawiedliwości

Polski wymiar sprawiedliwości postrzegany jest jako skostniały i opieszały. Tymczasem kolejne e-usługi udostępniane przez Ministerstwo Sprawiedliwości ułatwiają życie przedsiębiorcom i usprawniają pracę sądów.

e-Zdrowie w Polsce i na świecie

Projekty informatyzacji służby zdrowia realizowane są na świecie z różnym powodzeniem. Skąd Polska mogłaby czerpać wzorce? A może jesteśmy skazani na własne rozwiązania?

Raport Państwo 2.0, czyli nowa wizja informatyzacji państwa

Michał Boni, minister administracji i cyfryzacji, zaprezentował raport "Polska 2.0. Nowy start dla e-administracji". Przedstawia on informacje na temat stanu realizacji projektów będących w gestii nowo utworzonego ministerstwa oraz prezentuje kierunki dalszych działań związanych z informatyzacją i cyfryzacją administracji publicznej w naszym kraju.

Cyberprzestępcy podążają za użytkownikami

Już dwie na trzy polskie firmy odnotowały ataki lub awarie, które spowodowały spadek produkcji. Co trzecia firma utraciła dane. Liczba takich przypadków będzie rosła, bo hakerzy biorą na cel najbardziej masowe technologie. Szybko reagują też na zmiany w firmowej architekturze.

Jak zaplanować karierę w branży IT

Doświadczenia łączone na różnych stanowiskach w firmach o odmiennych profilach są szczególnie cenione przez pracodawców. Dlatego warto głęboko przeanalizować możliwości rozwoju kariery, które obecnie stwarza rynek IT.

Jakie są różnice między chmurą a wirtualizacją

Wirtualizacja jest obecnie standardową technologią, stosowaną powszechnie w IT. Od środowiska chmury prywatnej dzieli ją jednak długa droga, gdyż wymaga ona uzupełnienia o istotne składniki.

Rekomendacje



Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88