Głos w pakietach

Standardy kompresji

Głos w pakietach

Tabela 1. Standardy kodowania głosu

Obróbka i kompresja sygnałów mowy do postaci cyfrowej może przebiegać na wiele sposobów, wśród których znaczące pozycje zajmują różne transkodery sygnałów cyfrowych (procedury przekształceń między różnymi niespójnymi kodami) i kodery bezpośrednich sygnałów mowy (zwane wokoderami). Do najbardziej istotnych cech dobrych wokoderów należą: niewielka przepływność binarna zakodowanego sygnału głosu, małe opóźnienia wnoszone podczas kodowania, minimalizacja wahań tych opóźnień i zachowanie odpowiedniej jakości brzmienia głosu (tembr, zrozumienie) po stronie odbiorczej - określanej w subiektywnej skali MOS (Mean Opinion Score) od poziomu 0 (niezrozumiały) do 5 (doskonały, czyli głos normalny).

Ogólna zasada kompresji mowy powoduje, że im wyższy jest stopień kompresji, tym niższa jest jakość głosu uzyskiwanego po jego zdekodowaniu. Za najlepsze algorytmy kompresji są uznawane takie, które dając najmniejszą liczbę bitów po kompresji, nie wpływają znacząco na zmianę tembru przesyłanego głosu, nie mówiąc o zniekształceniach uniemożliwiających jego odbiór (tab. 1).

W latach osiemdziesiątych wprowadzono i uzgodniono szereg norm poza już istniejącym standardem G.711, precyzujących różne sposoby kompresji głosu w czasie rzeczywistym dla niejednakowych wymagań rynkowych jako:

  • standard G.727 znany jako kodowanie różnicowe pod nazwą ADPCM 32 (Adaptive Differential Pule Code Modulation) z kompresją 2:1 w porównaniu z PCM 64. Jest stosowany w rozgłaszaniu bezprzewodowym klasy RLL (Radio Local Loop) i w europejskim standardzie DECT (Digital Enhanced Cordless Network). Ma algorytm zbliżony do standardowego G.711, ale działa nie na wartościach bezwzględnych tych próbek, lecz różnicy występującej między kolejnymi próbkami głosowymi. Stosowane również jako ADPCM 40, ADPCM 24 i ADPCM 16;
  • standard G.729 zapewniający kompresję głosu w stosunku 8:1 (komprymujący głos w strumieniu o przepływności 8 kb/s), często określany jako kompresja głosu o opłacanej jakości (toll quality). Podstawowy sposób kodowania głosu według tej normy dokonuje się za pomocą algorytmu CS-ACLP (Conjugate Structure Algebraic Code Excited Linear Prediction). Najnowsza, rozszerzona wersja G.729A wykorzystuje ten sam algorytm, lecz stosuje mniej cykli procesora DSP do przetwarzania głosu, co skraca czas opóźnień konwersji.
  • standard G.723.1 oferujący obecnie najwyższą, komercyjnie dostępną kompresję głosu 12:1 (5,3 kb/s lub 6,3 kb/s), przy czym dokonuje się to za pomocą różnych algorytmów. Przepływność binarną 5,3 kb/s uzyskuje się dzięki algorytmowi ACELP (Algebraic Code Excited Linear Prediction), natomiast przepływność 6,3 kb/s wykorzystuje algorytm MP-MQL (Multi Pule Maximum Likelihood Qantization).

Zamieniony w ten sposób głos na postać cyfrową, a następnie podzielony na pakiety można traktować na równi z innym pakietowym przekazem danych z jednym, ale znamiennym wyjątkiem: głos w przeciwieństwie do danych musi być przesyłany w czasie rzeczywistym - co nie jest łatwe. Obserwowany postęp w technologiach kodowania i konwersji wskazuje, że na początku następnej dekady algorytmy kompresji będą przesyłały głos o zadowalającej jakości przez kanały o przepływności binarnej 2,4 kb/s.

Pakietyzacja

Inaczej niż w łączach komutowanych scenariusz połączeń pakietowych jest oparty na jednostkach informacji, które są praktycznie niezależne od nośników fizycznych. Jednostkami informacji mogą być bowiem pakiety, ramki lub komórki (ATM), a wybór należy do protokołu używanego w transporcie informacji przez medium. Co więcej, tak określone jednostki informacji mogą być przesyłane w odrębnych kanałach komunikacyjnych (kanały wirtualne), niezależnie od rodzaju stosowanych po drodze nośników - czyli przez sieci heterogeniczne. We wszystkich jednak przypadkach jednostki informacji (popularnie, choć niesłusznie określane jako pakiety) są przesyłane przez sieć współdzieloną przez innych użytkowników kanału komunikacyjnego.

Dodatkowym atrybutem przekazów pakietowych jest identyfikacja każdego pakietu za pomocą nagłówka, który może zawierać informacje o transmitującym kanale, miejscu pochodzenia pakietu (źródła lub nadajnika pakietów) i miejscu przeznaczenia (odbiornika). Oznacza to, że transmisja może przebiegać zarówno w trybie połączeniowym (po uprzednim nawiązaniu połączenia przez sieć kanałami sygnalizacyjnymi), jak i w bardziej efektywnym bezpołączeniowym trybie pracy (datagramy informacji).


TOP 200