Co widzisz na obrazku

Przeszukiwanie dokumentów tekstowych np. przez Google nie stanowi już żadnego wyzwania. Tymczasem wyszukiwanie obrazów i materiałów wideo nastręcza wielu problemów, które wciąż czekają na rozwiązanie.

Przeszukiwanie dokumentów tekstowych np. przez Google nie stanowi już żadnego wyzwania. Tymczasem wyszukiwanie obrazów i materiałów wideo nastręcza wielu problemów, które wciąż czekają na rozwiązanie.

Wyszukiwaniem plików wideo i obrazów zajmuje się coraz więcej użytkowników Internetu. Przyczyniła się do tego w ogromnym stopniu popularność serwisów YouTube, Flickr i innych. Problem w tym, że mechanizmy wyszukiwania tego rodzaju zasobów są rozpaczliwie niedoskonałe i wciąż nieskuteczne. Zagadnienie jest o tyle istotne, że materiały wideo to nie tylko amatorskie nagrania zamieszczane na YouTube, czy krótkie filmiki ilustrujące wpisy na blogach, ale też coraz częstszy element profesjonalnych serwisów informacyjnych, telewizji internetowych, serwisów produktowych istotnych w kontaktach biznesowych, nie mówiąc już o materiałach szkoleniowych czy intranetowych bazach wiedzy. Dziś możliwość przeszukiwania tych zasobów jest nieporównywalna z tym, co oferują wyszukiwarki zasobów tekstowych.

Opis, a nie zawartość

Wyszukiwarki obrazów i plików wideo koncentrują się dziś na szeroko rozumianych metadanych opisujących pliki, a nie na samej zawartości obrazów czy nagrań. Innymi słowy, przeszukiwane mogą być tylko informacje, którymi ktoś - najczęściej autor lub producent nagrania - opisał plik. Często wyszukiwarki, np. Google Image Search czy Picsearch, biorą pod uwagę również linki prowadzące do danego zasobu i tekst znajdujący się na stronie, na której prezentowany jest dany zasób. Alternatywną formą dostępu do zbioru nagrań czy obrazów są kategorie, listy, grupy czy inne podzbiory umożliwiające katalogowanie zasobów i wreszcie tzw. mechanizmy "related", umożliwiające znalezienie zasobów o podobnej tematyce lub charakterystyce, co zasoby już znalezione.

Można więc odnieść wrażenie, że tak różnorodna forma dostępu do poszukiwanych materiałów ułatwia ich odnalezienie. Nic bardziej błędnego. Próba skorzystania np. z Picsearch doprowadza do rozpaczy użytkownika wiedzącego doskonale, że poszukiwane przez niego zdjęcie "gdzieś tam jest". Niestety, nie wiadomo gdzie i nie wiadomo, jak się do niego dostać po wyczerpaniu wszystkich rozsądnych słów kluczowych, którymi autor zdjęcia lub publikujący je serwis najwyraźniej go nie opatrzył. Google Image Search wcale nie radzi sobie z tym zadaniem lepiej niż Picsearch i dość szybko można się zorientować, że branie przez wyszukiwarkę pod uwagę tekstowego kontekstu, w którym publikowane jest zdjęcie, jedynie utrudnia poszukiwania, dając mnóstwo nietrafnych wyników.

Z kolei Google Video umożliwia wyszukiwanie materiałów płatnych, sponsorowanych, udostępnionych w określonej domenie, o określonej długości czy mieszczących się w ramach określonego gatunku (np. zwiastuny filmów, materiały o charakterze religijnym, programy telewizyjne, dokumenty). Problem w tym, że są to raczej ograniczenia utrudniające znalezienie poszukiwanych materiałów i pozostawiające internautę z obawą, że zawężając w ten sposób swoje możliwości automatycznie wykluczył poszukiwany zasób. YouTube umożliwia przeszukiwanie według tagów oraz katalogu kategorii, kanałów i grup. Tonący brzytwy się chwyta, więc użytkownicy serwisów wideo z konieczności korzystają z katalogów i innych list. Katalog jest jednak zazwyczaj raczej analogią do włączenia kanału telewizyjnego, a nie wyciągnięcia z bibliotecznej szafy poszukiwanej książki. W przeszukiwaniu dokumentów tekstowych katalogi mają zastosowanie marginalne, słowa kluczowe są nieskończenie bardziej użyteczne, poręczne i skuteczniejsze. Gdyby nie mechanizm "related", znalezienie na YouTube wideo o poszukiwanej zawartości byłoby naprawdę niełatwym zadaniem. Obecnie największą nadzieję pokłada się w tagach.

Tagi nie działają...

Tagi, czyli etykiety opisujące dany zasób - książkę, wpis w blogu, zdjęcie, produkt, nagranie wideo, artykuł - coraz częściej stosowane są w Internecie. Można je znaleźć m.in. na YouTube, Flickr i we wszystkich blogach prowadzonych w domenie blogspot.com. Na wielu serwisach funkcjonują "chmury tagów" (tag clouds), mające postać zbioru kilkunastu czy kilkudziesięciu haseł, którymi użytkownicy najczęściej opisywali zasoby znajdujące się na serwisie - hasła używane najczęściej są największe i zapisane najgrubszą czcionką, hasła używane rzadko - maleńkie i cieniutkie. Taka chmura jest pewną formą subiektywnego katalogu. Tagi mogą być umieszczane przez autora danego zasobu lub wszystkich użytkowników serwisu. Teoretycznie świetny pomysł. Gdyby każda osoba oglądająca nagranie wideo umieściła przy nim odpowiedni tag, po pewnym czasie opis byłby kompletny i wyczerpujący. Problem w tym, że mało kto to robi, a jakość zamieszczonych tagów pozostawia wiele do życzenia.

Jednym z nielicznych, wyjątkowych serwisów, gdzie tagi działają, jest LibraryThing, największy internetowy serwis umożliwiający społeczne katalogowanie osobistych księgozbiorów. Interesujące wyjaśnienie tego fenomenu można znaleźć na blogu Thingology prowadzonym przy LibraryThing w notatce z 20 lutego 2007 r.: "When tags work and when they don't: Amazon and LibraryThing". "Tagowanie ma najwięcej sensu, kiedy masz mnóstwo do zapamiętania (...) i kiedy zorganizowanie twoich stron internetowych czy twoich książek przekształca się w trwające wiele godzin odkrywanie stron internetowych i książek należących do innych". Jeden z komentatorów dorzucił "Ludzie będą tagować, jeśli tagi będą użyteczne dla nich. Nie będą zaś, jeśli są użyteczne dla kogoś innego". Innymi słowy, trudno liczyć na to, że tagujący użytkownicy opanują chaos dostępnych w sieci materiałów wideo.

... może więc transkrypcje?

Alternatywą jest albo szczegółowe dopracowywanie opisów przez właścicieli materiałów, albo zamieszczanie transkrypcji, które mogłyby być czytane przez wyszukiwarki. W przypadku wielu nagrań transkrypcja może najwyżej zaciemnić obraz sytuacji, w przypadku innych dźwięk nie ma żadnego znaczenia. Jakimś rozwiązaniem może być mechanizm proponowany przez VeoTag - tworzenie do każdego filmu "spisu treści" umożliwiającego nawigowanie po kolejnych scenach, pytaniach wywiadu czy innych logicznych elementach nagrania. Taki spis treści mógłby być przeszukiwany przez wyszukiwarki, ułatwiałby życie użytkownikowi i jednocześnie skłaniałby autora do sporządzenia wyczerpującego opisu.

Problem przeszukiwania obrazów - ruchomych czy nie - jak na razie pozostaje nierozwiązany. Może kiedy lepiej zaczną działać systemy rozpoznawania mowy, zostaną wykorzystane do przeszukiwania materiałów wideo czy plików audio?

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200