W poszukiwaniu straconego sensu

Przy wszystkich zachwytach nad skutecznością działania współczesnych wyszukiwarek internetowych trzeba przyznać, że często zdarza im się prezentować wyniki zupełnie niezwiązane z poszukiwanym tematem. Przełom mają przynieść sieci semantyczne.

Ogromne ilości danych komputerowych zgromadzone w sieci Web stanowią największy zbiór informacji w historii ludzkości. Nie ulega wątpliwości, że jest to wyjątkowo cenne narzędzie sprzyjające rozwojowi wiedzy, jednak przy wszystkich swoich zaletach sieć ma jedną poważną wadę - nie może być bezpośrednio i efektywnie wykorzystana przez maszyny. Tim Berners-Lee, twórca sieci Web, a obecnie szef W3C (World Wide Web Consortium) chciałby, żeby było inaczej. Według niego sieć przyszłości ma być semantyczna.

Semantyczna sieć Web (Semantic Web) w odróżnieniu od współczesnej będzie uzupełniona infrastrukturą metadanych składającą się ze znaczników (tag) definiujących elementy informacji w obrębie stron Web. Gdy stanie się rzeczywistością, a nie wizją stosunkowo wąskiej grupy ludzi, umożliwi uruchamianie procesów lub programów, które będą mogły realizować te zadania samodzielnie, a przynajmniej bez stałego nadzoru człowieka. Jego udział ograniczy się do okresowego sprawdzania poprawności działania programu. Sieć semantyczna nie rozszerzy współczesnej sieci Web. Ma ją zastąpić.

Systematyczny rozwój

Zanim powstała sieć Web użytkownicy mogli przesyłać pliki, wykorzystując protokół FTP. Dane przesyłane były w postaci plików binarnych. Wszystko zmieniło się z chwilą, gdy Tim Berners-Lee zbudował sieć opartą na stronach WWW, czyli dokumentach o strukturze opisanej w języku HTML. Technologia ta łączy interaktywne formularze, tekst oraz obiekty multimedialne i opisuje jak mają być one prezentowane i jak ma wyglądać strona jako całość.

HTML ma jednak bardzo ograniczone możliwości w zakresie klasyfikowania bloków tekstu na stronie. W miarę rozwoju Web ograniczenia HTML sprowokowały powstanie języków XML i XHTML, które oferują mechanizmy umożliwiające nadawanie stronom Web niestandardowych, łatwych do zrozumienia w konkretnym kontekście znaczników niosących znacznie bogatszą semantykę niż HTML.

Dzięki popularyzacji usług Web (Web Services) użytkownicy, a nawet zautomatyzowane procesy, mogą łatwo sięgać tylko do specyficznych informacji zawartych w dokumentach (stronach), wykonywać na nich operacje logiczne lub transformacje. W sieci semantycznej oprogramowanie będzie mogło lokalizować nie dokumenty, lecz od razu informacje. W pewnym sensie sieć semantyczna stanie się globalną bazą danych.

Trywialna wiedza

W czasach, kiedy komputery zawitały zarówno do przedszkoli, jak i domów starców, zapomina się jaki w dalszym ciągu wielki udział ma użytkownik w realizowaniu zadań w sieci. Maszyny nie zadowalają się częściowymi informacjami, nie wiedzą co znajduje się na zdjęciu, nie radzą sobie z przenośniami czy analogiami albo łączeniem informacji z różnych źródeł. Nie znają też zbyt wielu słów.

Nie ma nic trudnego w tym, by wejść na stronę Computerworld z myślą o przeczytaniu artykułu czy żeby zajrzeć do redakcyjnego bloga. Nie ma nic trudnego w zlokalizowaniu okulisty czy laryngologa w Gdańsku. Jednak jeśli miałby to zrobić komputer, nie poradzi sobie, chyba że otrzyma precyzyjną instrukcję - poprawnie zapisaną listę poleceń i odpowiedzi we właściwej kolejności.

Przykładowo, wykorzystując HTML oraz przeglądarkę Web, możliwe jest stworzenie strony prezentującej listę oferowanych do sprzedaży przedmiotów. HTML nie będzie jednak wiedział, że pozycja nr A1001 to paczka chusteczek higienicznych w cenie 50 gr. Za pomocą HTML można wyspecyfikować, że tekst "A1001" powinien znaleźć się obok "chusteczki higieniczne" i ceny "50 gr". Za pomocą HTML nie można wyrazić, że "chusteczki higieniczne" to produkt przeznaczony do wycierania nosa (a przynajmniej głównie do wycierania nosa), że "50 gr" to cena itd. Sieć semantyczna rozwiązuje te problemy.

Polskie projekty semantyczne

Pod koniec grudnia ub.r. Prokom Software zaangażował się w amerykański projekt o nazwie Hakia. Jej twórcy twierdzą, że będzie to pierwsza wyszukiwarka bazująca na "znaczeniu". Technologia Hakia nie wykorzystuje tradycyjnych indeksów, ale system MAQ bazujący na ontologiach budowanych na bazie statystyk uzyskanych w wyniku analizy stron internetowych.

Hakia ma nie tylko dostarczać wyłącznie trafnych rezultatów, ale także podpowiadać bardziej skomplikowane pytania - co z pewnością można docenić, poszukując odpowiedzi w obszarach, w których użytkownik nie posiada rozległej wiedzy. Na razie przedsięwzięcie znajduje się we wczesnej fazie beta.

Z kolei krakowska firma Software Mind na zlecenie brytyjskiej firmy Richmond Informatics prowadzi projekt, którego celem jest dostarczenie rozwiązania z zakresu analizy zbiorów danych, opracowywania znaczenia gromadzonych informacji oraz intuicyjnej prezentacji danych i ich relacji. Powstająca w Krakowie technologia opiera się na wykorzystaniu semantycznie zorganizowanych baz danych oraz narzędzi z zakresu sztucznej inteligencji. Firma zakończyła właśnie pierwszy etap projektu, w trakcie którego powstał prototyp rozwiązania.

Sieć semantyczna wykorzystywana jest w projekcie współfinansowanym przez Komisję Europejską SWAP (Semantic Web and Peer-to-Peer), w który zaangażowana jest m.in. firma Empolis Polska. W ramach projektu powstaje środowisko dzielenia się wiedzą pomiędzy użytkownikami określonej sieci. Każdy posiadacz komputera osobistego z zainstalowaną aplikacją SWAP jest traktowany jak równorzędny użytkownik, który może opisywać i klasyfikować przechowywane na własnym komputerze dokumenty, listy lub zakładki internetowe, a jednocześnie zadawać pytania kierowane do sieci podobnych sobie użytkowników.

Sieć semantyczna opiera się na kilku standardach:

XML - dostarcza podstawowy format dla ustrukturyzowanych dokumentów, chociaż sam nie zawiera semantyki.

XML Schema - to język opisu struktury dokumentów XML.

RDF (Resource Description Framework) - koncepcja odwzorowania relacji między obiektami wykorzystywana w Semantic Web do ustalenia relacji między elementami zapytania.

URI (Uniform lub Universal Resource Identifiers) - krótkie ciągi znaków identyfikujące zasoby w sieci Web - dokumenty, obrazy, pliki, usługi, skrzynki poczty elektronicznej. URI zapewniają programom dostęp do zasobów adresowych i w prosty sposób pozwalają zalogować do serwera czy wydawać skomplikowane polecenia.

RDF Schema (RDF-S) - opisuje właściwości, klasy i hierarchie zasobów RDF.

OWL (Web Ontology Language) - został zaprojektowany z myślą o aplikacjach przetwarzających informacje na stronach Web, a nie do zwykłej prezentacji danych. Służy do opisu znaczenia terminów w słownikach i relacji pomiędzy terminami. Taka reprezentacja terminów i występujących pomiędzy nimi zależności nazywana jest ontologią. OWL oferuje większe możliwości niż XML, RDF czy RDF-S. Wykracza także poza możliwości języków do reprezentowania treści możliwych do zinterpretowania przez maszyny.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

Computerworld.pl

W poszukiwaniu straconego sensu

Systematyczny rozwój

Trywialna wiedza

Polskie projekty semantyczne

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

W poszukiwaniu straconego sensu

Systematyczny rozwój

Trywialna wiedza

Polskie projekty semantyczne

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830