Wyjęte z kontekstu

Hurtownie danych mogą okazać się nową wieżą Babel, jeśli nie uda się odczytać poprawnie treści informacji.

Hurtownie danych mogą okazać się nową wieżą Babel, jeśli nie uda się odczytać poprawnie treści informacji.

Zespół naukowców z Massachusetts Institute of Technology (MIT) na czele z prof. Stuartem E. Madnickiem zajmuje się opracowywaniem rozwiązań dotyczących ujednolicenia danych, lecz nie należy się spodziewać szybkiego rozwiązania tego problemu.

Korzystanie z wielkich hurtowni danych i inteligentnych agentów przeszukujących sieć Web może okazać się nową wieżą Babel, ze względu na niemożliwość poprawnego odczytania treści informacji pochodzącej z różnych źródeł, zawartych w danych o różnych formatach..

S. E. Madnick nazywa ten problem "kontekstem danych". Dane pochodzące z różnych środowisk mogą oznaczać różne rzeczy, podobnie jak słowo Java znaczy zupełnie co innego dla programisty, a co innego dla geografa, np. w Stanach Zjednoczonych ocena D w szkole znaczy "ledwo dostateczna", w Australii zaś "z wyróżnieniem".

Do niedawna ten problem nie miał większego znaczenia, ponieważ firmy rzadko przystępowały do integrowania danych z różnych źródeł, zlokalizowanych w różnych krajach. Przy opracowywaniu słowników danych przez i dla techników koncentrowano się na jednolitości nazw niż ich znaczeniu. Jednakże pojawienie się setek tysięcy lokalizacji WWW, globalnych hurtowni danych i milionów użytkowników dokonujących własnych poszukiwań w sieci Web trudno będzie akceptować dane zawierające ukryte znaczenie lub dane ukrywające znaczenie. "Ale problem ten nie dotyczy minihurtowni danych (data mart), gdyż na ogół zawierają one dane z niewielkiej liczby względnie jednolitych źródeł" - mówi Peter M. Storer z firmy Atre Associates, zajmującej się opracowaniem hurtowni danych.

Szef informatyki jednej z dużych korporacji mówi: "Zaczęliśmy budować hurtownię danych, w której kontekst danych odgrywa najważniejszą rolę. Gdy szukamy danych o sprzedaży, okazuje się, że niektórzy szefowie działów włączają w dane upusty, inni zaś nie. Jedni włączają koszty przesyłki, inni nie. Przy dużych odległościach, np. w Azji różnica może być astronomiczna".

Podobne problemy występują w dziale sprzedaży. Czy już zostało zrealizowane konkretne zamówienie? Zadając to samo zapytanie do różnych baz danych otrzymamy różne odpowiedzi. Wynika to stąd, że w każdej z baz inaczej zdefiniowano kluczowe słowo.

Ciekawe możliwości

Usunięcie problemu zgodności danych stworzyłoby nowe możliwości. Według analityków z Merrill Lynch: - "Wyciągamy dane finansowe z Internetu, dodajemy informacje ze źródeł zewnętrznych i firmowej bazy danych i dostarczamy tę mieszankę informacyjną handlowcom, analitykom i maklerom w postaci użytecznych tabel i zestawień".

Umożliwi to szybsze podejmowanie decyzji, łączenie danych z wielu źródeł i skróci czas poszukiwania informacji w Internecie. Naukowcy z MIT wspólnie ze specjalistami z Merrill Lynch opracowują taki system.

Również firma Primark Corp. podjęła współpracę z S. E. Madnickiem. integrując informacje gospodarcze pochodzące z wielu źródeł ze świata i dostarczając je firmom zajmującym się operacjami giełdowymi. Sprecyzowaniem i wyjaśnieniem kontekstu oraz kontrolą jakości danych zajmuje się 150-osobowy zespół.

S. E. Madnick wskazuje inne korzyści swego systemu. W przypadku konfliktu zbrojnego dla wojska istotna jest szybkość dostaw - "wiarygodny agent" mógłby śledzić stan magazynów dostawców dla armii i ich systemy zarządzania produkcją oraz zamawiać właściwe produkty. Firmy wysyłkowe mogłyby porównywać stan zamówień z danymi od dostawców pocztowych UPS lub Federal Express i w razie opóźnienia wysyłać listy z wyjaśnieniami.

W opinii informatyków rozwiązanie problemu wiarygodności danych jest niezwykle istotne. Większość użytkowników obarcza winą system informatyczny, gdy najczęściej przyczyna tkwi w stosowanych w firmie rozwiązaniach.

Co dalej?

S. E. Madnick koncentruje swoje działania na wykorzystaniu sieci Web. Nie jest możliwe globalne standaryzowanie projektu wszystkich stron !WWW. "Naszym celem jest znalezienie sposobu zarejestrowania kontekstu każdej z nich" - mówi S. E. Madnick.

Jego zespół na razie znalazł rozwiązanie części problemu: jak pobrać dane z lokalizacji Web. Nazywano to generatorem otoczki Web. Jest to pośrednia warstwa oprogramowania, rezydująca na serwerze użytkownika, pozwalająca traktować sieć Web jako jedną bazę danych. Użytkownik zadając pytanie SQL, otrzymuje zapis w bazie danych lub arkuszu obliczeniowym, zawierający potrzebną mu informację. Generator włącza "specyfikację strony Web", która zawiera "schemat" (wygląd struktury bazy danych), "przejście do strony" (jaką ścieżkę należy podać, aby dostać się do właściwej strony, spełniającej warunki zapytania) oraz "reguły ekstrakcji informacji" (wskazówki dotyczące lokalizacji informacji na stronie).

Istnieją już dwie firmy dostarczające pierwsze produkty, które mają rozwiązywać problem poszukiwania danych. Alpha Systems (www.alphaconnect.com) zaopatruje w pakiet BusinessVue, który może zebrać dane o konkretnej firmie z sieci Web i innych źródeł w Internecie oraz dostarczyć je w formie pliku tekstowego lub arkusza obliczeniowego. Natomiast OnDiplay (www.ondisplay.com) oferuje produkt Center Stage, służący do zbierania danych z Internetu i zapisywania ich do arkusza obliczeniowego.

Jednakże jeszcze nikomu nie udało się rozwiązać problemu zbudowania "motoru do ujednolicania kontekstu", pozwalającego na jednolitą prezentację danych pochodzących z różnych źródeł, np. wymiary zawsze podawane w centymetrach, daty w formacie dd.mm.yyyy. S. E. Madnick i jego zespół stworzyli już trzecią wersję takiego motoru, ale ciągle jest to wersja testowa. Można ją obejrzeć on-line po zgłoszeniu pocztą elektroniczną pod adresem: smadnick@MIT.edu.

<hr size=1 noshade>Na podstawie Computerworld USA z 03.11.97 r. oprac. mł


TOP 200