Kino na życzenie

Standardy MPEG traktują film wideo jako zbiór trójwymiarowych obiektów, tj. uwzględniający dwa wymiary obrazu i trzeci czasowy. Kompresja ma charakter przyrostowy (zapamiętywanie obrazu podstawowego i nakładanie zmian), łącząc technologię kompresji jednostkowych obrazów JPEG z telekomunikacyjnym standardem animacji H.261. Całość uzupełniają transformacje BF (Bidirectional Frames) i tzw. elementy FPEMV (Fractional Picture Element Motion Vectors), odpowiadające dynamice zmian poszczególnych fragmentów obrazu (w filmie statystycznie poszczególne obrazy są prawie identyczne i bardzo efektywna kompresja opiera się właśnie na pomyśle zapisywania jedynie informacji o zmianach pomiędzy poszczególnymi obrazami). Obok ścieżki wideo MPEG-1 potrafi także kodować dźwiękowy sygnał stereo w warstwach (layer) I, II i III. Zwłaszcza to ostatnie rozwiązanie zyskało znaczną popularność w świecie audio, pod nazwą MP3.

Już w 1990 r. gremium MPEG przystąpiło do rozszerzenia standardu, uwzględniając potrzeby telewizji cyfrowej i DVD. W ten sposób powstała norma ISO-IEC 13818, czyli MPEG-2. Obejmuje ona specyfikację SDTV (Standard Definition Television), zaś cała "skrzynia" formatowa (container tools) standardu obejmuje siedem profili i cztery poziomy (profile/level), wśród nich MP@ML (Main Profile at Main Level). MPEG-2 to także wzbogacony system wielokanałowego kodowania sygnału audio, ale "gołym okiem" widać, że większą siłą przebicia wykazuje się tu zamknięty standard Dolby Digital.

Dla porządku należałoby wymienić jeszcze nieudany standard MPEG-3 dla telewizji (High Definition Television), a także MPEG-4, pomyślany jako uniwersalny standard dla skompresowanych danych multimedialnych. Znajdziemy w nim opcje sterowania interaktywnego, także dla MIDI, możliwości opisu scen 3D, transmisji z mniejszymi prędkościami, a wszystko w formacie BIFS (Binary Image Format for Scene Description).

Kolejne etapy rozwoju standardu to numer siedem, stanowiący uzupełnienie MPEG-4 o indeksację treści audiowizualnych metainformacjami MDS (Multimedia Description Scheme), i wreszcie przyszłościowy MPEG-21.

Psychooptyka

Istotą technologii MPEG jest hybrydowy sposób kompresji danych będący kombinacją redukcji redundancji (nadmiarowości) i nierelewancji (irrelevancy). Zilustrujmy pierwszy przypadek tzw. rzadką macierzą składającą się głównie z zer i czasami jedynek. Zapamiętanie wszystkich pozycji tablicy zajmie więcej pamięci niż skoncentrowanie się tylko na jedynkach. Przykładowo, jeśli w wierszu jest obok siebie dziewięć jedynek, to ich zapamiętanie 1:1 zabierze 9 bajtów, ale informacja o ich liczbie (9) zaledwie jeden bajt. Jeśli znajdziemy w macierzy powtarzające się schematy, to możemy wielokrotnie zredukować jej rozmiary bez utraty danych, o czym może przekonać się każdy, kto korzysta z takich programów, jak choćby LHA czy WinZIP.

O wiele ciekawsza jest kompresja predykcyjna, czyli przepowiadająca. Polega ona na prognozowaniu obrazu, który pojawi się w następnej chwili, na podstawie już przetworzonych danych. Ponieważ z reguły tylko część z następujących po sobie obrazów "porusza się", rozkłada się je na makrobloki o rozmiarach 8 x 8 pikseli. Teraz wystarczy poszukać bloków, które pasują do obrazka, spośród wcześniej transmitowanych z uwzględnieniem wektorów przesunięcia (motion estimation). Dekoder kopiuje wówczas odpowiednio zapamiętane bloki, co jest operacją wymagającą dużych mocy procesora. Kompresja danych natomiast korzysta z dyskretnej transformacji kosinusowej DCT (Discrete Cosine Transform). Oczywiście całkowicie nieprzewidywalna sekwencja rozpoczynająca nowe ujęcie musi być zakodowana w całości (jako tzw. Intra-Frame).

Z psychooptycznych właściwości systemu MPEG wynika, że nie przetwarza on informacji kolorystycznych RGB (Red, Green, Blue), lecz głównie dotyczące natężenia światła, tj. luminancję i chrominancję. Ponieważ ludzkie oko jest bardziej wrażliwe na zmiany jasności światła niż jego kolorystyki, wystarczy mniejsza rozdzielczość chrominancyjna niż luminancyjna. Podobnym "oszustwem" jest zgrubne przetwarzanie struktur, na które jesteśmy mniej wrażliwi niż na duże niskoczęstotliwościowe obiekty. Napotykamy tu zatem wyraźne analogie do stratnych kompresji psychoakustycznych (MP3).

Teleputery i kompuwizory

Przy komputerowym dostępie do danych wideo, oprócz transmisji on demand w trybie "na żywo" czy pobierania filmu w całości na dysk istnieje trzecia pośrednia metoda, tzw. progresywnego strumienia wideo (progressive streaming). Polega ona na jednoczesnym pobieraniu i odtwarzaniu pliku, co zapobiega lądowaniu w kolejce czekających na dostęp, powodowanej wąskimi gardłami sieci. Korzysta się przy tym z protokołu UDP (User Datagram Protocol), który w przeciwieństwie do klasycznego TCP nie musi gwarantować kompletności transmisji w określonym czasie, co rzecz jasna optymalizuje obciążenia sieciowe. Dla zapewnienia ciągłości transmisji niezbędny jest protokół synchronizacyjny IRTP (Internet Realtime Transport Protocol), sortujący pakiety danych na podstawie ich datownika (time stamp). Jeśli dodatkowo chcemy, aby nasze wideo ODS (On Demand Streaming) miało "magnetowidowe" możliwości cofania i zatrzymywania, to musimy zaopatrzyć się w stosowne rozszerzenie protokołu - RTSP (Real Time Streaming Protocol), pionierskiego na tym polu rozwiązania firmy RealNetworks.

Niezależnie od sukcesu konkretnych technologii, które ostatecznie zdominują rynek "kina na życzenie", można się spodziewać wykształcenia tutaj trzech głównych grup odbiorców: domowych, komercyjnych i naukowych, dla których będą potrzebne inne modele biznesowo-technologiczne.

Pozostaje jeszcze pytanie, czy komputer będzie stawał się również kompuwizorem (co technicznie nie jest problemem) czy też raczej telewizor będzie ewoluował w kierunku terminalu abonenckiego (teleputer)? Wydaje się, że większe szanse ma pierwsza z tych opcji. Świadczy o tym chociażby ostatnia propozycja Samsunga - Magic Bright - umożliwiająca wybór trybu pracy monitora dla tekstu, Internetu bądź wideo.


TOP 200