Informacja starej daty

Subskrybuj RSS A A A
17 września 2006
Piotr Kowalski

Informację najstarszą oraz najnowszą łączy wspólna cecha, jaką jest stosunkowo trudna dostępność.

Informację najstarszą oraz najnowszą łączy wspólna cecha, jaką jest stosunkowo trudna dostępność.

Najnowsze informacje, posiadające nietrywialne znaczenie, nie są publikowane ot tak sobie, stąd częsta trudność w ich pozyskaniu. Natomiast informacje starej daty zazwyczaj nie są dostępne ze względu na brak źródeł lub utrudniony do nich dostęp. Skutkiem tego ludzie niewiele wiedzą o przeszłości, a o teraźniejszości tylko tyle, ile im się pozwoli wiedzieć.

Wiele uczyniono w kierunku cyfrowego udostępniania zasobów archiwalnych, skanując oraz indeksując różnego rodzaju starodruki czy inne historycznie istotne dokumenty. Niejednokrotnie też porządkowano wiedzę, przepisując maszynowo stare teksty, organizując je w przeszukiwalne bazy danych. Jednak wszystkie te starania są jedynie kroplą w morzu potrzeb, nie mówiąc już o wysiłku poniesionym na tego typu zabiegi. Efekt z tego jest jednak mierny, bo indeksy są wybiórcze, a rozmiary - zwłaszcza plików graficznych - zbyt duże, aby mogły być efektywnie udostępniane w sieci. Żeby więc wyszukać informację w zeskanowanym kilkusetstronicowym dokumencie (najczęściej w formacie PDF) należy go po prostu przejrzeć strona po stronie. Do wygodnych i szybkich takie metody nie należą.

Na szczęście powiało od pewnego czasu optymizmem. Z końcem lat 90. pojawił się bowiem format DjVu służący do przechowywania grafiki i tekstu jednocześnie. Specyfika tego formatu polega na podziale warstwowym dokumentu powodując, że wyodrębnia się tło i plan pierwszy oraz tekst. Poddając zeskanowany dokument obróbce do formatu DjVu otrzymujemy niewielki rozmiarem i, co niezwykle istotne, przeszukiwalny plik. Zastosowana kompresja (algorytmicznie odrębna dla każdej warstwy) oraz wyodrębnienie warstwy tekstu za pomocą techniki OCR, powodują, że przy zachowaniu bardzo dobrej jakości obrazu otrzymujemy wielokrotnie mniejszy aniżeli w formacie JPEG rozmiar pliku wynikowego. W celu zapoznania się ze szczegółami technicznymi oraz użytkowymi proponuję zajrzeć na stronę www.lizardtech.com, a dla praktycznego sprawdzenia walorów tegoż rozwiązania udać się na strony którejś z naszych bibliotek cyfrowych.

Kilka nowocześniejszych bibliotek w kraju, zgrupowanych w regionalne konsorcja, funkcjonuje w oparciu o jednolitą platformę cyfrową o nazwie dLibra ( http://dlibra.psnc.pl ) opracowaną w Poznańskim Centrum Superkomputerowo-Sieciowym. Niewątpliwym liderem jest tu Wielkopolska Biblioteka Cyfrowa ( http://www.wbc.poznan.pl ), a kroku dotrzymuje jej Kujawsko-Pomorska Biblioteka Cyfrowa ( http://kpbc.umk.pl ). I w takich właśnie miejscach ucyfrowione dokumenty przechowywane są między innymi w formacie DjVu. Jaki mamy z tego pożytek? Przede wszystkim taki, że można przeszukać indeksowane zasoby starych książek i dokumentów, a jeżeli są one składowane w formacie DjVu, to dodatkowo można szperać w tekstowym wnętrzu, czyli wykonywać pełnotekstowe wyszukiwanie w dokumencie graficznym. Największe jednak wrażenie robi przetrząsanie przedwojennych gazet. Można stąd dowiedzieć się, kto z rodziny przed wojną anonsował ślub lub też kto reklamował swój zakład usługowy czy produkcyjny.

Czytać gazety należy, bo zawierają one fakty. Okazuje się, że dzienniki im starsze, tym bliżej były ludzi, a sprawy traktowano z imienia i nazwiska. Ale nie tylko to. Teraz przy kawce możemy delektować się prasą sprzed lat, jakbyśmy cofnęli się w czasie. Ot, takie dejavu.

Oceń artykuł

średnio: 2 liczba ocen: 1

Komentarze (0)

Najnowsze

MAC, czyli ministerstwo reformowania rządzenia

Premier wspiera lojalnie w kryzysie najbliższego współpracownika, Michała Boniego, przyjmując na siebie atak oburzonych internautów podczas debaty o ACTA.

Nowe, unijne zamówienia publiczne

Komisja Europejska proponuje ważne zmiany prawa wspólnotowego w obszarze zamówień publicznych. Warto im się przyjrzeć bo to jeden z elementów nowej perspektywy finansowej UE. Warto zatem przyjrzeć się owej propozycji bliżej.

Bezpieczeństwo rządowych stron - analiza

Zespół zadaniowy ds. ochrony portali rządowych opublikował wytyczne. Trudno stwierdzić, że to najlepsze rekomendacje, jakie można było przy okazji zaistniałych ataków wypracować.

DEBATA: Kiedy walka polityczna w sieci przemienia się w cyberterroryzm?

Skuteczny atak cybernetyczny przyniesie opłakane skutki dla państwa i gospodarki. Boleśnie się o tym przekonaliśmy, gdy nie można było dostać się na strony internetowe najważniejszych instytucji w Polsce.

Czy MSW chce unieważnienia przetargu na pl.ID?

Rośnie ryzyko całkowitego unieważnienia przetargu na nowe dowody osobiste. Krajowa Izba Odwoławcza odrzuciła odwołanie firmy Sygnity, która nie zgadzała się na wydłużenie o trzy miesiące terminu składania ofert na dostawę blankietów nowych dowodów osobistych. Wydłużenie całego postępowania o trzy miesiące może spowodować skargi uczestniczących w nim firm, a w konsekwencji unieważnienie przetargu.

Garść rad dla roztropnego szefa IT

Trudne czasy w gospodarce to okres, kiedy szczególnego znaczenia nabiera hasło: Jak cię widza, tak cię piszą. Osłabienie rynku przekłada się na oszczędności w przedsiębiorstwie, a oszczędności najłatwiej szukać w działach, które, w opinii zarządu, nie są bezpośrednio związane z prowadzoną działalnością - czyli również w dziale IT.

Sprzeczne wizje e-dowodu

Koncepcja elektronicznego dowodu osobistego powstała w Polsce wiele lat temu. Starsze są koncepcje elektronicznego systemu świadczeń ochrony zdrowia. Mimo to, nadal są w trakcie budowy.

Rekomendacje

Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88