Wprost do źródła

W ramach programu e-Content powstaje system wyszukiwawczy, który w odpowiedzi na zadane pytanie będzie odsyłał wprost do stosownego fragmentu tekstu.

W ramach programu e-Content powstaje system wyszukiwawczy, który w odpowiedzi na zadane pytanie będzie odsyłał wprost do stosownego fragmentu tekstu.

Rosnące zasoby treści elektronicznych sprawiają, że coraz mniej efektywne staje się proste, dobrze znane rzeszom internautów wyszukiwanie potrzebnych informacji. Dzisiaj już nie wystarczy wpisanie słowa kluczowego do wyszukiwarki obsługującej zorganizowane, opisane, niejednokrotnie dobrze zindeksowane i skatalogowane serwisy w sieci. W coraz większym stopniu gra między autorami narzędzi wyszukiwawczych toczy się o dostęp do informacji głęboko ukrytych, nie tworzonych z myślą o upowszechnianiu, zalegających "po cichu" na dyskach wielu komputerów. Gra toczy się także o możliwości wydobywania użytecznej wiedzy z sieciowych zasobów informacyjnych. Coraz większego znaczenia nabierają systemy automatycznej analizy tekstu pomocne w docieraniu do wiedzy niedającej się skatalogować tradycyjnymi metodami klasyfikacyjnymi, a możliwej do znalezienia jedynie poprzez rozbudowane mechanizmy kojarzenia znaczenia słów i wyrażeń czy algorytmy łączące wiedzę na temat sztucznej inteligencji z dorobkiem językoznawców.

W firmach komercyjnych i instytutach naukowych podejmowane są coraz liczniej próby stworzenia skutecznych sposobów odnajdowania w sieciowych, rozproszonych zasobach danych odpowiadających wprost i dokładnie na zadane pytanie. Największym osiągnięciem dla twórców sieciowych wyszukiwarek byłoby w gruncie rzeczy dobranie się do prywatnych zasobów informacyjnych użytkowników komputerów PC, laptopów, palmtopów itp., bez względu na to, gdzie się znajdują i jaki jest ich status w sieci. Wizja takiego informacyjnego gridu stanowi inspirację dla wielu twórców komputerowych systemów wyszukiwawczych. Jedną z dróg realizacji tego marzenia są projekty coraz bardziej zaawansowanych narzędzi wyszukiwawczych. Wiele z nich realizowanych jest w ramach programów ramowych Unii Europejskiej.

W ramach programu e-Content Unia Europejska finansuje m.in. realizację projektu M-CAST. Jego celem jest stworzenie wielojęzycznego systemu do wyszukiwania, integrowania i gromadzenia informacji z wielkich zasobów danych tekstowych, takich jak biblioteki internetowe, zbiory wydawnictw naukowych i prasowych czy bazy międzynarodowych korporacji. System ma na początek obsługiwać zbiory w językach: angielskim, czeskim, francuskim, polskim, portugalskim i włoskim.

Koordynatorem projektu jest warszawska firma Infovide SA. Wyniki prac mają być testowane na zbiorach Polskiej Biblioteki Internetowej, której operatorem jest obecnie Książnica Kopernikańska w Toruniu oraz na zbiorach Biblioteki Narodowej Republiki Czeskiej w Pradze. Wśród partnerów znajdują się firmy dostarczające narzędzia językowe, wykorzystywane w produktach firmy Microsoft, m.in. katowicka spółka TiP (szczegółowe informacje na stronie:http://www.m-cast.infovide.pl ).

Trafić w sedno

Wprost do źródła

Procesor lingwistyczny

Przy realizacji projektu M-CAST zostaną wykorzystane wyniki prac z wcześniejszego projektu TRUST - Multilingual Semantic and Cognitive Search Engine for Text Retrieval Using Semantic Technologies (wielojęzyczny mechanizm semantyczny i kognitywny do wyszukiwania tekstów z wykorzystaniem technik semantycznych). W jego ramach stworzona została specjalna wyszukiwarka dostępna dotychczas w wersji jednostanowiskowej na komputery osobiste. Za jej pomocą można przeszukiwać zawartość twardego dysku lub zasoby Internetu.

"System dokonuje wielokryterialnej analizy zapytania. Korzysta przy tym z taksonomii przygotowanych dla poszczególnych języków. Brane są pod uwagę m.in. wyrazy bliskoznaczne i pojęcia podobne. Na tej podstawie są tworzone słowa kluczowe, które następnie są rozsyłane do wielu wyszukiwarek. W odpowiedzi pojawia się bardzo dużo wyników - więcej niż w przypadku standardowej wyszukiwarki. Program filtruje je, poszukując odpowiedzi najbardziej adekwatnych do zadanego pytania. Użytkownik otrzymuje fragmenty tekstów w różnych językach, w których zaznaczone są zdania zawierające najbardziej prawdopodobne odpowiedzi" - tłumaczy zasadę działania wyszukiwarki Borys Czerniejewski, dyrektor Biura Współpracy Międzynarodowej Infovide SA, kierownik projektu M-CAST.

W ramach projektu M-CAST ma powstać wersja serwerowa systemu. Ma to być wersja umożliwiająca przeszukiwanie wszelkich zasobów sieciowych, docierająca wprost do poszczególnych składników najbardziej rozbudowanych i rozległych zbiorów informacji.

Autorzy projektu przyjęli założenie, że zapytania do systemu będzie można zadawać w jednym z sześciu języków naturalnych, np. w języku polskim: "Jaką pozycję zajmował wójt w społeczeństwie polskim w XVIII w.?" albo "Gdzie w Europie znajdują się zbiory holenderskiego malarstwa pejzażowego z XIX w.?" W poszukiwaniu odpowiedzi system ma sięgać do zasobów we wszystkich obsługiwanych przezeń językach.

System będzie dokonywał analizy wielojęzycznych zasobów w sieci, szukając informacji odnoszących się wprost do zadanego pytania. W wyniku wyszukiwania prezentowane będą fragmenty tekstów, zawierające szczegółowe odpowiedzi na pytanie. Użytkownikowi pozostanie co najwyżej przetłumaczenie otrzymanych wyników.

Dla zwiększenia efektywności przeszukiwania zasobów wykorzystana zostanie Uniwersalna Klasyfikacja Dziesiętna (UKD), od lat stosowana przez bibliotekarzy do tworzenia katalogów tematycznych. Taksonomie poszczególnych języków występujących w systemie zostaną dostosowane do wymogów i reguł UKD. Dla poszczególnych dziedzin wiedzy zostaną dodatkowo stworzone szczegółowe ontologie tematyczne.

Dla bibliotek i agencji

Wprost do źródła

Architektura logiczna

Na początek skuteczność i możliwości wykorzystania nowego narzędzia będą sprawdzane na zbiorach bibliotecznych. Potem testowanie systemu będzie się odbywało m.in. w Polskiej Bibliotece Internetowej (http://www.pbi.e-du.pl ). Jeżeli testy się powiodą, będzie to pierwsza polska biblioteka internetowa, która udostępni czytelnikom możliwość pełnotekstowego przeszukiwania zasobów - i to aż w sześciu językach. "Jedna z podstawowych zalet systemu to odsyłanie wprost do konkretnego fragmentu tekstu z konkretnej publikacji. System będzie umożliwiał zadanie w miarę precyzyjnego pytania i uzyskanie równie precyzyjnej odpowiedzi" - mówi Radosław Skudlarski, kierownik Działu Informatycznego Wojewódzkiej Biblioteki Publicznej-Książnicy Kopernikańskiej w Toruniu, zarządzającej Polską Biblioteką Internetową (swoją drogą ciekawe, czy wówczas uczniowie lub studenci nie będą musieli czytać dokładnie "Pana Tadeusza", bo odpowiedź na pytanie typu "Kim był ksiądz Robak i jakie były jego związki z powstańcami?" uzyskają automatycznie z systemu).

System ma być zintegrowany z portalem bibliotecznym i umożliwiać docelowo również obsługę plików multimedialnych. Wersje tekstowe dzieł zostaną powiązane z ich obrazami, a dzieła klasyków np. z ich wersjami dźwiękowymi, czytanymi przez znanych aktorów (jeżeli materiały takie będą dostępne). Jeden portal będzie umożliwiał wyszukiwanie informacji w wielu bibliotekach (zasobach cyfrowych), dokonując w ten sposób gromadzenia informacji rozproszonej w wielu miejscach.

System będzie mógł być wykorzystywany nie tylko do wyszukiwania informacji, ale również do opracowywania katalogów tematycznych, tworzenia serwisów informacyjnych, zarządzania zbiorami (pozyskiwania i agregacji danych oraz poprawy ich jakości) czy obsługi bibliograficznych baz danych. Oprócz Polskiej Biblioteki Internetowej system zostanie zainstalowany w Bibliotece Narodowej Republiki Czeskiej w Pradze (http://www.nkp.cz ).

Docelowo biblioteki nie będą jednak jedynymi odbiorcami i użytkownikami systemu. Będzie on mógł być wykorzystywany przez wszelkiego rodzaju instytucje i organizacje dysponujące dużymi, rozproszonymi zbiorami informacji w wielu językach. Mogą to być agencje prasowe, redakcje czasopism, instytuty badawcze i wydawnictwa naukowe, agencje wywiadu czy międzynarodowe korporacje posiadające swoje oddziały w różnych krajach na całym świecie. "Trudno oczekiwać, by wszystkie dokumenty w oddziale korporacji, szczególnie te związane z obsługą rynku wewnętrznego np. we Włoszech, były tworzone w języku angielskim. System M-CAST będzie umożliwiał dotarcie do potrzebnych informacji zapisanych również w języku włoskim" - przekonuje Borys Czerniejewski z Infovide.

Podstawowym walorem przygotowywanego narzędzia ma być to, że dzięki niemu będzie można znaleźć w rozległych zasobach sieci niemalże każdą informację bez względu na to, w jakim języku została ona zapisana. Czy te założenia rzeczywiście uda się zrealizować, będzie można ocenić dopiero po zakończeniu projektu i pierwszych doświadczeniach z roboczych wdrożeń systemu.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200