Krok naprzód

Celem projektu badawczego Theseus jest stworzenie nowych rozwiązań technologicznych związanych z wyszukiwaniem informacji. Projekt jest dofinansowany z funduszy europejskich.

Celem projektu badawczego Theseus jest stworzenie nowych rozwiązań technologicznych związanych z wyszukiwaniem informacji. Projekt jest dofinansowany z funduszy europejskich.

Theseus to zaawansowany program badawczy dotyczący rozwoju nowego Internetu, tzw. Web 3.0. Oczekiwanymi rezultatami projektu będą nowatorskie produkty, narzędzia, usługi i modele biznesowe dla WWW, jak również usługi dla społeczeństwa wiedzy jutra. Główny nacisk położono na technologie semantyczne, które nie określają treści (słowa, obrazy i dźwięki) konwencjonalnymi metodami (połączeniem liter), ale są w stanie rozpoznać i umieścić znaczenie treści w odpowiednim kontekście.

Używając tych technologii, programy komputerowe będą mogły "zrozumieć" kontekst, w którym przechowywane były dane. W dodatku, dzięki stosowaniu reguł wnioskowania, komputery będą mogły wyciągać logiczne wnioski z kontekstu oraz niezależnie rozpoznawać i tworzyć połączenia pomiędzy różnymi częściami informacji z różnych źródeł. Łącząc dzisiejszy Web 2.0 z otwartą i interaktywną filozofią sieci semantycznych, zrobimy duży krok w kierunku Internetu nowej generacji, tzw. Web 3.0 (Web 3.0 = Web 2.0 + sieci semantyczne).

Naszym zdaniem, technologie semantyczne staną się fundamentem nadającym aktualnemu Internetowi nowy kształt. Internet nowej generacji (Web 3.0) znacznie ułatwi dostęp do ustrukturalizowanej, globalnej wiedzy poprzez bardziej precyzyjny dostęp do żądanych w danym momencie informacji.

Należy dodać, że Theseus nie będzie tylko kolejną wyszukiwarką typu Google czy Altavista. Różne scenariusze użycia projektu będą skierowane do różnych grup odbiorców. Naukowcy i architekci projektu interesują się potrzebami indywidualnych klientów, ale również chcą stworzyć warunki, które udostępniłyby technologie Theseus korporacyjnym użytkownikom, chcącym oferować szybki i łatwy dostęp do ich aplikacji. Mając to na uwadze, struktura systemu jest tak budowana, aby umożliwić korporacyjnym użytkownikom przystosowanie technologii Theseus jak najmniejszym wysiłkiem do własnych wymagań, zamiast tworzyć nowe produkty od zera. Oznacza to, że w przyszłości firmy będą w stanie zaoszczędzić czas i pieniądze, jak również polepszyć jakość produktów przez częściowe lub całkowite użycie wypracowanych rozwiązań.

Czego będą dotyczyć badania

Krok naprzód

Ontologia obrazująca przykładowe zależności projektu Theseus.

Jak wspominaliśmy już wcześniej, Theseus to nie tylko kolejna wyszukiwarka, lecz przede wszystkim projekt badawczy, którego celem jest wypracowanie nowych standardów w dziedzinie webu. Oprócz badań nad rozwojem narzędzi do zarządzania reprezentacją wiedzy wspieranej ontologią, konsorcjum pracuje również nad nowymi algorytmami maszynowego uczenia się, wrażliwymi na sytuacje systemami inteligentnego przetwarzania dialogu oraz innowacyjnymi interfejsami użytkownika. Rozwijane procesy zarządzania prawami cyfrowymi - DRM (Digital Rights Management) mają pozwolić posiadaczom intelektualnej własności treści multimedialnych na lepszą ich ochronę.

Partnerzy naukowi prowadzą również badania nad automatycznym indeksowaniem i archiwizowaniem treści multimedialnych, takich jak proces automatycznego wytwarzania metadanych dla obrazów, dźwięków, filmów czy też kontekstowe rozpoznanie obrazu wideo. Kluczowe będzie tutaj również zbudowanie ujednoliconego modelu wiedzy.

Prowadzone badania nad sprawnymi algorytmami indeksowania i wyszukiwania metadanych są odpowiedzią na pojawiające się żądanie zapewnienia sensownego czasu odpowiedzi podczas wyszukiwania w złożonych, multimedialnych bankach danych. Tworzone algorytmy będą umożliwiać wyszukiwanie obrazów i danych wideo w bankach danych z setkami obiektów (obrazki, ujęcia wideo, klipy wideo).

Rozwój algorytmów maszynowych

Rozwijana będzie skalowalna technologia do kształtowania i konstruowania ontologii. W trakcie prac wykorzystywane będą innowacyjne procesy oparte na zasadach maszynowego uczenia się; pomoże to odkryć logiczno-deterministyczne i prawdopodobne związki w tekście, danych audio, wideo i obrazach. To z kolei pozwoli statystycznym metodom maszynowego uczenia się na rozwój, który umożliwi uzyskanie wiedzy z relacyjnych danych; te dane mogą być potem użyte do tworzenia lub powiększenia istniejących ontologii. Metody maszynowego uczenia się są również używane w rozwoju systemu dla automatycznego tworzenia przypisów dokumentów tekstowych. Semantyczne informacje będą przechowywane w sprawnie działających, bogatych strukturach, umożliwiając optymalne wyszukiwanie ich w późniejszym okresie.

Innowacyjne formy dialogu

Rozwój innowacyjnych form dialogu pozwoli na natychmiastowe rozpoznanie związku pomiędzy różnymi danymi, metadanymi i dokumentami, co w konsekwencji da możliwość intuicyjnego obchodzenia się z nimi. Wyniki wyszukiwania będą wyświetlane jako "sieci wiedzy" (knowledge networks), które pokażą nie tylko relacje pomiędzy wynikami i kluczowymi słowami używanymi do ich wyszukiwania, ale również pomiędzy samymi wynikami. Sieci wiedzy umożliwią użytkownikom bardziej intuicyjne wyszukiwanie, dostarczą szersze spojrzenie na cały zakres tematu i pomogą szybciej zlokalizować wymagane informacje.

Dzięki tworzeniu zharmonizowanej struktury, aplikacje wchodzące w skład systemu Theseus staną się bardziej intuicyjne dla użytkowników. Nie będą oni tracić czasu na zapoznanie się z systemem za każdym razem, kiedy będą chcieli go użyć, ale odkryją, że wszystkie aplikacje mają identyczną strukturę i podobne funkcje. Zaletą tej struktury jest fakt, iż interfejs użytkownika może być przystosowany do różnych opcji wyświetlania. Dzięki technologii triple play aplikacje Theseus mogą być przeglądane w telefonach komórkowych, na monitorach i ekranach telewizorów.

Rozwój technologii DRM

Naukowcy pracują również nad nowymi narzędziami cyfrowego zarządzania prawami (Digital Rights Management - DRM), które w przyszłości zapewnią lepszą ochronę intelektualnej własności multimedialnej treści. Zasadniczo, rozwój technologii posunie się o jeden etap do przodu poprzez: cyfrowe znaki wodne, systemy szyfrowania do kontrolowanego rozprowadzania, etykietowanie różnych formatów danych, weryfikację technologii i systemy filtrujące dane oraz wydruki.

Czas pokaże, ile nowego wniosą do rozwoju współczesnego webu badania prowadzone przez firmy i instytuty badawcze skupione wokół projektu Theseus. Na wyniki nie będzie trzeba czekać zbyt długo, bowiem pierwsze prototypy mają być prezentowane już w pierwszej połowie 2008 r.

Historia projektu

Projekt Theseus zrodził się w 2005 r. z francusko-niemieckiej inicjatywy gospodarczej o nazwie Quaero. Już we wczesnym okresie okazało się, że obie strony mają odmienne zdanie co do głównych obszarów badań. Na przełomie roku 2006/2007 na żądanie strony francuskiej postanowiono podzielić projekt na dwa. Francuski projekt został przy oryginalnej nazwie, niemiecki zaś nazwano Theseus.

Latem 2007 r. Komisja Europejska zatwierdziła dofinansowanie projektu badawczego Theseus. Jego celem ma być stworzenie nowych rozwiązań technologicznych związanych z wyszukiwaniem informacji. Prowadzone badania mają opierać się na wykorzystaniu w praktyce technologii semantycznych.

Do obecnej chwili do programu Theseus przyłączyło się ponad 30 instytutów badawczych, uniwersytetów, firm, m.in.: SAP, Siemens, Lycos Europa, Empolis oraz Deutsche Nationalbibliothek. Prace będą prowadzone przez światowej sławy ekspertów, m.in. z Niemieckiego Centrum Sztucznej Inteligencji (DFKI), Uniwersytetu Technicznego z Monachium oraz Drezna. Rezultaty badań będą na bieżąco implementowane przy udziale firm partnerskich. Koordynatorem powołanego konsorcjum została firma Empolis.

Architektura systemu

Prace nad projektem zostały podzielone na kilka scenariuszy. Dla przykładu, SAP zajmie się tzw. scenariuszem Texo, Siemens - Medico, Lycos - Alexandria, a Empolis scenariuszami Ordo i Processus.

Celem scenariusza Texo jest dostarczenie firmom zorientowanej serwisowo infrastruktury (SOA) dla nowo tworzonych aplikacji i usług. Rozwijana infrastruktura będzie niezależna od jakiejkolwiek firmy; będzie dostarczać uniwersalne, semantycznie sterowane interfejsy pomiędzy dostawcami usług a ich klientami.

Celem scenariusza Medico będzie zbudowanie uniwersalnej wyszukiwarki dla medycyny. Stworzona baza danych umożliwi semantyczny dostęp do bazy obrazów. System będzie używany przy konstruowaniu diagnoz medycznych oraz planów terapii, jak również przy badaniach biomedycznych oraz epidemiologicznych.

Alexandria, nazwana tak na cześć słynnej starożytnej biblioteki, ma za zadanie stworzyć bazę wiedzy nastawioną na klienta. Głównym zadaniem modułu będzie wspieranie użytkowników w publikowaniu, przetwarzaniu i wyszukiwaniu treści. Alexandria zaproponuje wiele przydatnych narzędzi intuicyjnie wykorzystujących całą platformę.

Scenariusz Ordo skupi się na rozwoju technologii semantycznych, tworzeniu usług i narzędzi, które umożliwią użytkownikom łatwiejsze organizowanie posiadanych przez nich informacji cyfrowych. Sam proces organizowania będzie przebiegał automatycznie i jawnie. Nie będzie wymagał wysiłku ze strony użytkownika. Wysoka skalowalność systemu będzie umożliwiać przetwarzanie ogromnych ilości danych i ich graficzną wizualizację w formie modelu wiedzy. W przeciwieństwie do dotychczas używanych rozwiązań możliwe będzie indywidualne zarządzanie wiedzą składającą się zarówno z ustrukturowanych, jak i nieustrukturowanych danych.

Processus pozwoli firmom na porównanie produktów i rozwiązań partnerów biznesowych, jak również na zlokalizowanie złożonych, a czasem nieznanych informacji specjalistycznych potrzebnych pracownikom, których praca wymaga baz wiedzy. Zespoły badawcze zamierzają także rozwijać podstawowe platformy semantyczne, które zintegrują wewnętrzne źródła informacji firmy z zarządzaniem cyfrową treścią.


TOP 200