PL183498B1

PL183498B1 - Dekoder akustyczny wielokanałowy

Info

Publication number: PL183498B1
Application number: PL96346688A
Authority: PL
Inventors: Stephen M. Smyth; Michael H. Smyth; William P. Smith
Original assignee: Digital Theater Systems
Priority date: 1995-12-01
Filing date: 1996-11-21
Publication date: 2002-06-28
Also published as: CA2238026C; KR19990071708A; ES2232842T3; BR9611852A; CN1848241B; AU705194B2; US5974380A; CN1303583C; HK1149979A1; AU1058997A; PT864146E; CN1848242B; KR100277819B1; CA2331611A1; HK1015510A1; CN101872618B; CN1132151C; CN1848242A; EA001087B1; EP0864146A1

Abstract

1 . Dekoder akustyczny wielokanalowy do odtwarzania wielokrotnych kanalów akustycznych az do szybkosci prób- kowania dekodera ze strumienia danych, w którym kazdy kanal akustyczny byl próbkowany z szybkoscia próbkowa- nia kodera, przynajmniej tak duza jak szybkosc próbkowa- nia dekodera, podzielona na wiele podpasm czestotliwosci, poddana kompresji i multipleksowana w strumien danych z szybkoscia transmisji, znamienny tym, ze zawiera bufor wejsciowy (324) do wczytywania 1 pamietania strumienia danych w danym czasie, ze slowem synchronizacji, naglów- kiem ramki, naglówkiem akustycznym i co najmniej jedna podramka, do którego jest dolaczony demultiplekser (40) do wykrywania slowa synchronizacji, rozpakowania naglówka ramki dla wydzielania wielkosci okna nastawianej w funkcji stosunku szybkosci transmisji do szybkosci próbkowania ko- dera, rozpakowania naglówka akustycznego i sekwencyjnego rozpakowania kazdej podramki do którego jest dolaczony deko- der (42, 44) pasma podstawowego do dekodowania kodów akustycznych podpasma w odtwarzane sygnaly podpasma, bez odniesienia do jakichkolwiek innych podramek, do któ- rego jest dolaczony filtr (44) odtwarzania pasma podstawo- wego, do którego jest dolaczony dekoder (58, 60) o duzej szybkosci próbkowania, do dekodowania kodów akustycz- nych o duzej szybkosci próbkowania w odtworzony sygnal o duzej szybkosci próbkowania dla kazdego kanalu akusty- cznego i filtr (62) odtwarzania kanalu, który laczy sygnaly odtworzony pasma podstawowego i o duzej szybkosci próbkowa- nia w wielokanalowy sygnal akustyczny Fig 3 PL PL PL PL PL PL PL PL PL

Description

Przedmiotem wynalazku jest dekoder akustyczny wielokanałowy, zwłaszcza dotyczący kodowania i dekodowania o wysokiej jakości wielokanałowych sygnałów akustycznych. Koder jest zwłaszcza koderem podpasma, który wykorzystuje doskonałe/niedoskonałe filtry przy odtwarzaniu, kodowanie predykcyjne/niepredykcyjne podpasma, analizę przejściową i przydział bitów psychoakustyczny/minimalnego średniego błędu kwadratowego (mmse) w funkcji czasu, częstotliwości oraz wielokrotne kanały akustyczne do wytwarzania strumienia danych z ograniczonym obciążeniem obliczeniowym dekodowania.

Znane kodery akustyczne i dźwiękowe o wysokiej jakości są podzielone na dwie szerokie klasy. Po pierwsze, kodery przekształcania/podpasma o dużej rozdzielczości częstotliwości, które

183 498 kwantują adaptacyjnie podpasmo lub próbki współczynników przy analizie zgodnie z obliczaniem psychoakustycznym. Po drugie, kodery podpasma o małej rozdzielczości, które poprawiają słabąrozdzielczość częstothwościowąprzez przetwarzanie próbek podpasma przy zastosowaniu adaptacyjnej różnicowej modulacji kodowo-impulsowej ADPCM.

Pierwsza klasa koderów wykorzystuje duże, krótkotrwałe zmiany widmowe sygnałów dźwiękowych przez przydziały bitów zgodnie z energią widmową sygnału. Duża rozdzielczość tych koderów umożliwia dostarczanie sygnału przetworzonego częstotliwościowo bezpośrednio dla modelu psychoakustycznego, który jest oparty na teorii pasma krytycznego słyszalności. Koder akustyczny, przedstawiony na przykład przez Dolby’ego AC-3, Todda i innych w publikacji pod tytułem “AC-3: Elastyczne kodowanie percepcyjne do przetwarzania i pamiętania sygnałów akustycznych Convention of the Audio Engineering Society, luty 1994, oblicza 1024 współczynników częstotliwościowych w sygnałach z modulacjąkodowo-impulsową i zapewnia model psychoakustyczny dla 1024 współczynników częstotliwościowych w każdym kanale w celu określania szybkości transmisji bitów dla każdego współczynnika. System Dolby’ego stosuje analizę przejściową, która zmniejsza wymiar analizowanego okna do 256 próbek dla izolacji stanów przejściowych. Koder AC-3 stosuje prawnie zastrzeżony algorytm adaptacji wstecznej do dekodowania przydziału bitów. To powoduje zmniejszenie ilości informacji o przydziale bitów, którajest przesyłana wraz z kodowanymi danymi akustycznymi. W wyniku tego szerokość pasma dostępna dla sygnałów akustycznych jest zwiększana w schematach adaptacyjnych wstecznych, co prowadzi do poprawy jakości dźwięku.

W drugiej klasie koderów kwantowanie sygnałów różnicowych podpasma jest albo stałe albo dostosowane dla minimalizacji mocy szumu kwantowania we wszystkich lub niektórych podpasmach, bez wyraźnego odniesienia do teorii psychoakustycznego maskowania Znane jest, że bezpośredni, psychoakustyczny poziom progowy zakłócenia nie może być doprowadzony do sygnałów predykcyjnych/podpasma różnicowego z powodu trudności w ocenie prognozowania przed procesem przydziału bitów, co jest bardziej złożone w wyniku oddziaływania szumu kwantowania na proces prognozowania.

Kodery te działają ponieważ percepcyjnie krytyczne sygnały akustyczne są okresowe w długich przedziałach czasu, co jest wykorzystywane przez kwantowanie predykcyjne różnicowe. Podział sygnału na małą liczbę podpasm powoduje zmniejszenie akustycznych wpływów modulacji szumu i umożliwia wykorzystanie długotrwałych zmian widmowych w sygnałach akustycznych. Jeżeli liczba podpasm jest zwiększona, wzmocnienie prognozowania w każdym podpasmie jest zmniejszone i w pewnym punkcie wzmocnienie prognozowania dąży do zera.

Znany jest z publikacji Digital Theater Systems, L.P., koder akustyczny, w którym każdy kanał akustyczny z modulacją kodowo-impulsową jest filtrowany do czterech podpasm i każde podpasmo jest kodowane przy zastosowaniu kodera wstecznego adaptacyjnej różnicowej modulacji kodowo-impulsowej ADPCM, który dostosowuje współczynniki prognozowania do danych podpasma. Przydział bitów jest stały i taki sam dla każdego kanału, przy czym podpasmom o niższych częstotliwościach jest przypisanych więcej bitów niż podpasmom o wyższych częstotliwościach. Przydział bitów zapewnia stały współczynnik kompresji, na przykład 4T.

Znany koder DTS jest opisany przez Mike’a Smytha i Stephena Smytha w publikacji “ΑΡΤ-Χ100: Koder akustyczny z modulacją ADPCM podpasma o małym opóźnieniu, małej szybkości transmisji bitów do transmisji radiofonicznej”, Proceedings of tne lOth International AES Conference 1991, strony 41-56.

Oba typy znanych koderów akustycznych mają inne wspólne ograniczenia. Po pierwsze, znane kodery akustyczne kodują-dekodująze stałą wielkością ramki, tojest liczba próbek lub okres czasu reprezentowany przez ramkę jest stały. W wyniku tego, gdy kodowana szybkość transmisji wzrasta względem szybkości próbkowania, ilość danych czyli bajtów w ramce także wzrasta. Zatem wielkość bufora dekodera musi być przeznaczona do dostosowania się do najtrudniejszego przypadku, aby zapobiec przepełnieniu danymi. To powoduje zwiększenie wielkości pamięci RAM, co komplikuje dekoder. Po drugie, znane kodery akustyczne nie są łatwo rozszerzalne dla próbkowania częstotliwości większych niż 48 kHz, co spowodowałoby, że istniejące dekodery

183 498 stałyby się niezgodne z formatem wymaganym dla nowych koderów Ten brak zgodności cech jestpoważnym ograniczeniem. Ponadto znane formaty stosowane do kodowania danych z modulacj ą kodowo-impulsową wymagaj ą, żeby cała ramka była wczytywana przez dekoder przed rozpoczęciem odtwarzania, co wymaga, żeby wielkość bufora była ograniczona do bloków danych w przybliżeniu 100 ms, tak że opóźnienie lub czas oczekiwania nie przeszkadzają słuchaczowi

Te znane kodery mają zdolność kodowania do 24 kHz i często wyższe podpasma są obniżane, co powoduje zmniejszenie dokładności i wierności przy wielkich częstotliwościach odtwarzanego sygnału. Znane kodery zwykle wykorzystująjeden z dwóch typów schematu wykrywania błędów. Najbardziej znane jest kodowanie Reada Solomona, w którym koder dodaje bity wykrywania błędów do informacji w strumieniu danych, co ułatwia wykrywanie i korekcję błędów w informacji, jednak błędy w danych akustycznych nie zostają wykryte. Znanajest także kontrola ramki i nagłówków akustycznych dla nieważnych stanów kodowania. Dla przykładu, określony parametr 3-bitowy może mieć tylko 3 ważne stany. Jeżeli jest identyfikowany jeden z pozostałych 5 stanów, musi pojawić się błąd, co zapewnia zdolność wykrywania i nie powoduje wykrywania błędów w danych akustycznych.

Znany jest z opisu patentowego USA nr 5 583 962 wielokanałowy koder akustyczny, który zmniejsza szybkość transmisji bitów wielokanałowego sygnału akustycznego kodowanego z modulacją kodowo-impulsową, przy zachowaniu poziomu dokładności porównywalnego jak dla dysku kompaktowego, przez wykorzystanie połączenia redundancji subiektywnych i obiektywnych w poszczególnych kanałach czyli wewnątrzkanałowych i pomiędzy kanałami akustycznymi czyli międzykanałowych.

Podstawowym procesem jest tu międzykanałowy proces kodowania znany jako kodowanie natężenia lub jako kodowanie łączne stereo. Kodowanie natężenia jest procesem, w którym częstotliwości akustyczne, zgrupowane w pasma krytyczne, omawiane jako podpasma, są w pewnych warunkach sumowane z sygnałami pasma krytycznego w innych kanałach akustycznych, kodowanymi i pamiętanymijako sygnał złożony. Dla dekodowania i odtwarzania złożonego sygnału, w każdym kanale jest umieszczana kopia stosowana do wytwarzania sygnału złożonego, a natężenie każdego kanałujest zmodyfikowane oddzielnie dla dopasowania natężenia sygnałów podpasma przed sumowaniem. Proces zmiany natężenia sygnału złożonego w dekoderze jest nazywany sterowaniem. Kodowanie natężenia jest stosowane przy zmniejszaniu szybkości transmisji bitów, ponieważ zwykle mniej danych jest wymaganych do kodowania złożonych podpasm oraz informacji natężenia i sterowania niż jest to wymagane do kodowania sygnałów oddzielnych podpasm z każdego kanału.

W tym rozwiązaniu jest stosowany zespół filtrów i urządzenie kwantujące poziomu zgrubnego oraz dwa lub więcej sygnałów akustycznych jest filtrowanych w podpasma, stosując szerokości pasma w przybliżeniu równe pasmom krytycznym słyszalności przez człowieka i te podpasma są najpierw przepuszczane do urządzenia kwantującego poziomu zgrubnego, które zasadniczo wykonuje prostą konwersję zmiennopozycyjną bloku dwójkowego. Zostaje dokonany zgrubny pomiar energii podpasma i ocena liczby bitów wymaganych do kwantowania każdego sygnału podpasma dla uzyskania pewnego poziomu dokładności sygnału na wyjściu dekodera i wytworzenia wymaganego przydziału bitów. Ocenę przydziału bitów dokonuje się na przykład przez zastosowanie pomiarów maski szumu psychoakustycznego, a jej wynik jest przenoszony do sterownika.

Alokator adaptacyjny bitów przydziela zmienną liczbę bitów podpasmom we wszystkich kanałach akustycznych. Podpasmom o największej energii widmowej jest przydzielanych więcej bitów niż podpasmom o małej zawartości sygnałów. Bity są przydzielane na przykład ze wspólnego obszaru bitów, którego wymiar jest określony przez wymaganą szybkość transmisji bitów kodera, wymiar okna zespołu filtrów i szybkość próbkowania wejściowego sygnału cyfrowego akustycznego. Adaptacyjny proces przydziału bitów jest powtarzany lub modyfikowany w pewnych przykładach wykonania w odpowiedzi na informację dostarczaną z powrotem z procesu sterowania, który porównuje rzeczywisty przydział bitów z wymaganym przydziałem bitów i adaptacyjnie przeprowadza proces sterowania w jednym lub więcej podpasmach dla

183 498 zmniej szenia liczby bitów wymaganych do kodowania sygnałów podpasma w celu uzyskania sygnałów złożonych i wytworzenia sygnałów sterujących. Sygnały sterujące są stosowane przez dekoder do umieszczania sygnału złożonego w oddzielnych kanałach.

Urządzenie kwantujące przygotowuje kwantową reprezentację kodowanego sygnału akustycznego do następnego zapamiętania lub przesłania do dekodera. W procesie wydziela się słowa kodu podpasma ze strumienia bitów i ponownie normalizuje się kody.

Sterownik odwrotnego sterowania odtwarza dyskretne podpasma dla każdego kanału dla sterowanych podpasm. Zespół filtrów odwrotnych dekodera ponownie łączy podpasma każdego kanału w cyfrowe sygnały akustyczne pojedynczego pasma z modulacją kodowo-impulsową Charakterystyka tego zespołu filtrów jest odwrotna względem charakterystyki zespołu filtrów kodera dla zwiększenia do maksimum kasowania pseudonazw.

Znanyjest z opisu patentowego USA nr 5 588 024 sposób wydajnego obliczania psychoakustycznego przydziału bitów dla kodowania podpasma częstotliwości cyfrowego sygnału akustycznego. Przedstawiony jest proces kodowania-dekodowania podpasma przy zastosowaniu warstwy akustycznej MPEG, która jest stosowana jako odniesienie dla porównywania wydajności algorytmu przydziału bitów MPEG z algorytmem według wynalazku. Sposób ten polega na tym, że stałe okno próbek akustycznych z modulacjąkodowo-impulsowąjest dostarczane zarówno do filtru podpasmajak i do kalkulatora współczynnika sygnału do maski SMR. Kalkulator stosuje własny filtr do sygnału wejściowego, zwykle z pasmami o szerokości bliskiej pasmom krytycznym, i oblicza poziom maski dla każdego krytycznego sygnału pasma w oparciu o model psychoakustyczny. Poziom maskowania jest określony jako maksymalny poziom szumu kwantowania, któremu podlega urządzenie kwantujące pasma krytycznego przed tym, jak ten szum stanie się słyszalny czyli nie będzie maskowany. Współczynnik sygnału do maski dla każdego podpasma jest otrzymywany przez odwzorowanie na mapie poziomów maskowania pasma krytycznego do poziomów maskowania podpasma i pobranie stosunku tych poziomów maskowania i poziomów niekwantowanego sygnału podpasma. Te współczynniki sygnału do maski są dostarczane do alokatora bitów dla przydziału bitów podpasmom. Zakładając, że całkowita liczba bitów nie przekracza osiągalnej puli bitów, taki przydział bitów zapewnia jakość dźwięku na wyjściu dekodera, która jest bliska jakości dźwięku pierwotnego, wejściowego sygnału akustycznego. '

Sygnały podpasma z filtru podpasma są dostarczane zarówno do determinatora współczynnika skalowaniajak i urządzenia kwantującego. Szybkość transmisji bitów jest 192 kilobitów na sekundę, szybkość próbkowania 48 kHz i wymiar okna z modulacją kodowo-impulsową 384 próbki. Stosowanym tutaj sposobem przydziału bitu do podpasm jest przydział bitów proporcjonalnie do wartości współczynnika sygnału do maski, dostarczanego przez kalkulator lub oddziaływanie iteracyjne aż do wykorzystania wszystkich bitów z puli

Znanyjest z opisu patentowego japońskiego sposób wykrywania przejść w koderze akustycznym podpasma o małej szybkości transmisji bitów i procedura przydziału bitów, która zmienia liczbę poziomów kwantowania w odpowiedzi na stan przejściowy sygnału, dla zmniejszenia do minimum występowania słyszalnego szumu kwantowania w obecności przejść - zjawisko znane jako echo wstępne. Zastosowanyjest wtym celu układ kodowania akustycznego, który dekoreluje sygnał wejściowy przy zastosowaniu przekształcania ortogonalnego FFT, DCT. Przedstawione jest urządzenie, które dzieli sygnał na trzy pasma częstotliwości przy zastosowaniu filtrów Współczynniki FFT każdego podpasma są dostarczane do kalkulatora poziomu progowego maskowania szumu, który wywołuje minimalny przydział bitów do każdego bloku współczynników FFT. Ten przydział bitówjest modyfikowany zgodnie z trybami przejściowymi wskazywanymi dla każdego bloku przez wybór wykrywania przejścia.

Dekoder według wynalazku zawiera bufor wejściowy do wczytywania i pamiętania strumienia danych w danym czasie, ze słowem synchronizacji, nagłówkiem ramki, nagłówkiem akustycznym i co najmniej jedną podramką, do którego jest dołączony demultiplekser do wykrywania słowa synchronizacji, rozpakowania nagłówka ramki dla wydzielania wielkości okna nastawianej w funkcji stosunku szybkości transmisji do szybkości próbkowania kodera, rozpakowania

183 498 nagłówka akustycznego i sekwencyjnego rozpakowania każdej podramki, do którego jest dołączony dekoder pasma podstawowego do dekodowania kodów akustycznych podpasma w odtwarzane sygnały podpasma, bez odniesienia do jakichkolwiek innych podramek, do którego jest dołączony filtr odtwarzania pasma podstawowego, do którego jest dołączony dekoder o dużej szybkości próbkowania, do dekodowania kodów akustycznych o dużej szybkości próbkowania w odtworzony sygnał o dużej szybkości próbkowania dla każdego kanału akustycznego i filtr odtwarzania kanału, który łączy sygnały odtworzony pasma podstawowego i o dużej szybkości próbkowania w wielokanałowy sygnał akustyczny.

Korzystnie filtr odtwarzania pasma podstawowego zawiera niedoskonały zespół filtrów odtwarzania NPR i doskonały zespół filtrów odtwarzania PR oraz nagłówek ramki zawiera kod filtru do wyboru jednego spośród zespołów filtrów NPR i PR.

Korzystnie dekoder pasma podstawowego zawiera wiele odwrotnych koderów z adaptacyjną różnicową modulacjąkodowo-impulsową do dekodowania kodów akustycznych pasma podstawowego, a informacja boczna zawiera współczynniki prognozowania dla koderów ADPCM i stan prognozowania PMODE dla sterowania dostarczaniem współczynników prognozowania do koderów ADPCM.

Korzystnie informacja boczna zawiera tablicę przydziału bitów dla każdego podpasma kanału, w którym każda szybkość transmisji bitów podpasma jest stała w podramce, co najmniej jeden współczynnik skalowania dla każdego podpasma w każdym kanale i stan przejściowy TMODE dla każdego podpasma w każdym kanale, dla identyfikacji liczby współczynników skalowania i związanych z nimi pod-podramek, przy czym dekoder pasma podstawowego jest przystosowany do skalowania kodów akustycznych podpasm przez poszczególne współczynniki skalowania zgodnie ze stanami TMODE.

Zaletą wynalazku jest dostarczenie dekodera akustycznego zdolnego do dekodowania z wieloma szybkościami próbkowania dekodowania.

Przedmiot wynalazku jest uwidoczniony w przykładach wykonania na rysunku, na którym fig. I przedstawia schemat blokowy 5-kanałowego kodera akustycznego według wynalazku, fig. 2 schemat blokowy kodera wielokanałowego, fig. 3 - schemat blokowy kodera i dekodera pasma podstawowego, fig. 4a i 4b - schematy blokowe kodera i dekodera o dużej szybkości próbkowania, fig. 5 - schemat blokowy kodera jednokanałowego, fig. 6 - wykres bajtów na ramkę w funkcji wielkości ramki dla zmiennych szybkości transmisji, fig. 7 - wykres odpowiedzi amplitudowej dla filtrów odtwarzania NPR i PR, fig. 8 - wykres utożsamiania podpasma dla filtru odtwarzania, fig 9 - wykres krzywych zakłócenia dla filtrów NPR i PR, fig. 10 - schemat kodera pojedynczego pasma, fig. 11a i 11b -wykrywanie stanu przejściowego i obliczanie współczynnika skalowania dla podramki, fig 12 - proces kodowania entropii dla kwantowanych TMODES, fig. 13 -proces kwantowania współczynnika skalowania, fig. 14 -splot maski sygnałowej z odpowiedzią częstotliwościową sygnału dla wytwarzania stosunku sygnału do maski SMR, fig. 15 - wykres odpowiedzi słuchowej człowieka, fig. 16 - wykres stosunku sygnału do maski SMR dla podpasm, fig. 17 wykres sygnałów błędu dla przydziałów akustycznych i bitów mmse, fig. 18a i 18b -wykres poziomów energii podpasma i odwrócony wykres, ilustrujące proces przydziału bitów typu “napełnienia wodą” mmse, fig. 19 - schemat blokowy pojedynczej ramki w strumieniu danych, fig. 20 - schemat blokowy dekodera, fig. 21 - schemat blokowy układu kodera i fig. 22 - schemat blokowy układu dekodera.

Tabela 1 zestawia maksymalną wielkość ramki w funkcji szybkości próbkowania i szybkości transmisji, tabela 2 zestawia maksymalnie dopuszczoną wielkość ramki, bajtów w funkcji szybkości próbkowania i szybkości transmisji i tabela 3 przedstawia związek pomiędzy wartością indeksu ABIT, liczbą poziomów kwantowania i uzyskanym podpasmem stosunku sygnału do maski SMR.

Figura 1 pokazuje, że wynalazek łączy cechy obu znanych schematów kodowania plus dodatkowe cechy w pojedynczym, wielokanałowym koderze akustycznym 10. Algorytm kodowania jest przeznaczony do wykonania przy studyjnych poziomach jakości, to jest jakości lepszej

183 498 niż dysku kompaktowego i zapewniania szerokiego zakresu zastosowań dla zmiany poziomów kompresji, szybkości próbkowania, długości słów, liczby kanałów i jakości percepcyjnej.

Koder 12 koduje wielokrotne kanały danych akustycznych z modulacją kodowo-impulsową 14, zwykle próbkowane przy 48 kHz i długościach słów pomiędzy 16 i 24 bitami, w strumieniu danych 16 ze znaną szybkością transmisji, korzystnie w zakresie 32-4096 kilobitów na sekundę. Inaczej niż znane kodery akustyczne, struktura ta jest rozszerzana do większych szybkości próbkowania 48-192 kHz, bez powodowania niezgodności istniejących dekoderów, które były zaprojektowane dla szybkości próbkowania pasma podstawowego lub jakiejkolwiek pośredniej szybkości próbkowania. Ponadto dane akustyczne z modulacją kodowo-impulsową 14 sąokienkowane i kodowane ramkąw danym czasie, przy czym każda ramkajest korzystnie dzielona na 1-4 podramek. Wielkość okna akustycznego, to jest liczba próbek z modulacją kodowo-impulsową, jest oparta na względnych wartościach szybkości próbkowania i szybkości transmisji, więc wielkość ramki wyjściowej, to jest liczba bajtów, odczytywana przez dekoder 18 na ramkę jest ograniczona, korzystnie pomiędzy 5, 3 i 8 kilobajtów.

W wyniku tego wielkość pamięci RAM, wymaganej dla strumienia danych z dekodera do bufora, jest utrzymywana jako stosunkowo mała, co upraszcza dekoder. Przy małych szybkościach stosuje się większe wielkości okna dla przesyłania ramki danych PCT, co poprawia osiągnięcia kodowania. Przy większych szybkościach transmisji bitów muszą być zastosowane mniejsze wielkości okna do spełnienia wymagania ograniczenia danych. To koniecznie zmniejsza osiągnięcia kodowania, lecz przy większych szybkościach jest to niewystarczające. Również sposób, w jaki dane z modulacjąkodowo-impulsowąsąprzesyłane w ramce, umożliwia dekoderowi 18 rozpoczęcie odtwarzania przed wczytaniem całej ramki wyjściowej do bufora, co powoduje zmniejszenie opóźnienia lub czasu oczekiwania kodera akustycznego.

Koder 12 zawiera zespół filtrów o dużej rozdzielczości, który jest korzystnie przełączany pomiędzy niedoskonałymi i doskonałymi filtrami odtwarzania w oparciu o szybkość transmisji bitów, dla rozkładania każdego kanału danych akustycznych z modLilacjąkodowo-impulsową 14 na pewną liczbę sygnałów podpasma. Kodery predykcyjny i kwantowania wektorowego VQ są stosowane do kodowania podpasm mniejszej i większej częstotliwości. Początkowe podpasmo kwantowania wektorowego jest stałe lub jest określane dynamicznie w funkcji własności bieżącego sygnału. Łączne kodowanie częstotliwości jest wykorzystywane przy małych szybkościach transmisji bitów do równoczesnego kodowania wielokrotnych kanałów w podpasmach większych częstotliwości

Koder predykcyjny korzystnie przełącza pomiędzy trybami pracy z modulacją APCM i z modulacją ADPCM w oparciu o wzmocnienie prognozowania podpasma. Analizator stanu przejściowego dzieli każdą podramkę podpasma na sygnały echa początkowego i końcowego czyli pod-podramki i oblicza poszczególne współczynniki skalowania dla pod-podramek echa początkowego i końcowego zmniej szaj ąc przez to zakłócenie echa początkowego. Koder przydziela adaptacyjnie osiągalną szybkość transmisji bitów we wszystkich kanałach z modulacjakodowo-impulsową i dzieli na podpasma dla bieżącej ramki zgodnie z określonymi potrzebami, na przykład psychoakustycznymi, w celu optymalizacji wydajności kodowania. Przez połączenie kodowania predykcyjnego i modelowania psychoakustycznego, wydajność kodowania przy małej szybkości transmisji bitów jest zwiększona, przez co zmniejsza się szybkość transmisji bitów, przy której jest osiągana subiektywna przezroczystość. Programowalny sterownik 19, taki jak komputer lub blok klawiszy, jest połączony interfejsem z koderem 32 dla przekazywania informacji trybu pracy akustycznej, zawierającej parametry, takie jak wymagana szybkość transmisji bitów, liczba kanałów, odtwarzanie PR lub NPR, szybkość próbkowania i szybkość transmisji.

Kodowane sygnały i informacja wstęgi bocznej są upakowywane i multipleksowane w strumieniu danych 16, tak że obciążenie obliczeniowe dekodowania jest ograniczone do wymaganego zakresu. Strumień danych 16 jest kodowany lub przesyłany przez nośnik transmisji 20, taki jak dysk kompaktowy, cyfrowy dysk wideo lub satelita nadający programy odbierane bezpośrednio. Dekoder 18 dekoduje poszczególne sygnały podpasma i wykonuje operację filtrowania odwrotnego w celu wytwarzania wielokanałowego sygnału akustycznego 22, który jest

183 498 subiektywnie równoważny pierwotnemu wielokanałowemu sygnałowi akustycznemu z modulacją kodowo-impulsową 14. System akustyczny 24, taki jak system teatru domowego lub komputer multimedialny, odtwarza sygnał akustyczny dla użytkownika.

Figura 2 pokazuje wielokanałowy koder 12, który zawiera wiele indywidualnych koderów kanałowych 26, korzystnie pięć - lewy przedni, środkowy, prawy przedni, lewy tylny i prawy tylny, które wytwarzająposzczególne zespoły kodowanych sygnałów 28 podpasma, korzystnie 32 sygnały podpasma na kanał. Koder 12 wykorzystuje system zarządzania 30 bitami globalnymi, który przydziela dynamicznie bity ze wspólnej puli bitów kanałów, pomiędzy podpasmami w kanale i w indywidualnej ramce w danym podpasmie. Koder 12 stosuje również łączne techniki kodowania częstotliwości dla korzystania ze współzależności pomiędzy kanałami w podpasmach większych częstotliwości. Ponadto koder 12 stosuje kwantowanie wektorowe w podpasmach większych częstotliwości, które nie są szczególnie dostrzegalne, w celu zapewnienia podstawowej dokładności lub wierności przy wielkich częstotliwościach z bardzo małą szybkością transmisji bitów W ten sposób koder wykorzystuje żądania różnych sygnałów, na przykład wartości podpasm rms i poziomów maskowania psychoakustycznego kanałów wielokrotnych i niejednorodny rozkład energii sygnałów dla częstotliwości w każdym kanale i czasu w danej ramce.

Przy przeglądzie przydziału bitów system zarządzania 30 najpierw decyduje, które podpasma kanałów sąkodowane częstotliwościowo łącznie i uśrednia te dane, a następnie określa, które podpasma sąkodowane przy zastosowaniu kwantowania wektorowego oraz odejmuje te bity od osiągalnej szybkości transmisji bitów. Decyzję o podpasmach dla kwantowania wektorowego podejmuje się a priori przez to, że wszystkie podpasma powyżej częstotliwości progowej są kwantowane wektorowo lub podejmuje się w oparciu o skutki maskowania psychoakustycznego poszczególnych podpasm w każdej ramce. Następnie system zarządzania 3θ przydziela bity ABIT przy zastosowaniu maskowania psychoakustycznego w pozostałych podpasmach dla optymalizacji subiektywnej jakości dekodowanego sygnału akustycznego. Jeżeli są dostępne bity dodatkowe, koder może przełączyć się na czysty schemat mmse, to jest typu “napełniania wodą” i ponownie przydzielić wszystkie bity w oparciu o podpasma względem wartości rms dla minimalizacji wartości rms sygnału błędu. To jest możliwe do zastosowania przy bardzo dużych szybkościach transmisji bitów. Korzystne rozwiązanie polega na zachowaniu psychoakustycznego przydziału bitów i przydziale tylko bitów dodatkowych zgodnie ze schematem mmse. To powoduje utrzymanie kształtu sygnału szumu wytwarzanego przez maskowanie psychoakustyczne, lecz jednorodne przesunięcie poziomu szumu do dołu.

Rozwiązanie jest modyfikowane tak, że bity dodatkowe są przydzielane zgodnie z różnicą pomiędzy rms i poziomami psychoakustycznymi. W wyniku tego przydział psychoakustyczny przechodzi do przydziału mmse, gdy szybkość transmisji bitów wzrasta, przez co zapewnia gładkie przejście pomiędzy tymi dwiema technikami. Powyższe techniki są szczególnie możliwe do zastosowania dla systemów o stałej szybkości transmisji bitów. Odmiennie koder 12 ustala poziom zakłócenia, subiektywny lub mse i umożliwia zmianę całkowitej szybkości transmisji bitów dla utrzymania poziomu zakłócenia. Multiplekser 32 mnoży sygnały pasma podstawowego i informację wstęgi bocznej w strumieniu danych 16 zgodnie ze szczególnym formatem danych.

Szczegóły formatu danych są omawiane poniżej odnośnie fig. 20.

Figura 3 wyjaśnia kodowanie pasma podstawowego. Dla szybkości próbkowania w zakresie 8-48 kHz koder kanałowy 26 wykorzystuje jednorodny zespół 34 filtrów analizy 512-zaczepowych, 32-pasmowych, pracujących przy częstotliwości próbkowania 48 kHz dla podziału widma akustycznego 0-24 kHz każdego kanału na 32 podpasma mające szerokość pasma 750 Hz na podpasmo. Podczas etapu kodowania 36 następuje kodowanie każdego sygnału podpasma i multipleksowanie 38 ich w skompresowany strumień danych 16. Dekoder 18 odbiera skompresowany strumień danych, rozdziela kodowane dane dla każdego podpasma przy zastosowaniu układu rozpakowania 40, dekoduje każdy sygnał 42 podpasma i odtwarza cyfrowe sygnały akustyczne z modulacją kodowo-impulsową Fprób = 48 kHz, przy zastosowaniu jednorodnego zespołu 44 filtrów interpolacji 512-zaczepowych, 32-pasmowych dla każdego kanału.

183 498

W tej strukturze wszystkie strategie kodowania, na przykład szybkości próbkowania 48,96 lub 192 kHz, stosują 32-pasmowy proces kodowania-dekodowania przy najmniejszych częstotliwościach akustycznych pasma podstawowego, na przykład pomiędzy 0-24 kHz. Zatem dekodery, które są zaprojektowane i zbudowane obecnie w oparciu o szybkość próbkowania 48 kHz, będą zgodne z przyszłymi koderami, które są zaprojektowane do wykorzystania składowych o większych częstotliwościach.

Istniejący dekoder odczytywałby sygnał pasma podstawowego 0-24 kHz i ignorowałby kodowane dane dla większych częstotliwości.

Przy kodowaniu z dużą szybkością próbkowania w zakresie 48 - 96 kHz, koder kanałowy 26 korzystnie dzieli widmo akustyczne na dwa i wykorzystuje jednorodny zespół filtrów analizy 32-pasmowych dla dolnej połówki i zespół filtrów analizy 8-pasmowych dla górnej połówki.

Figura 4a 14b pokazuje widmo akustyczne 0-48 kHz, które jest początkowo dzielone przy zastosowaniu zespołu 46 filtrów wstępnych działania dziesiętnego 256-zaczepowych, 2-pasmowych, zapewniających szerokość pasma akustycznego 24 kHz na pasmo. Pasmo dolne 0-24 kHz jest dzielone i kodowane w 32 jednorodnych pasmach w sposób opisany powyżej odnośnie fig. 3. Natomiast pasmo górne 24-48 kHz jest dzielone i kodowane w 8 jednorodnych pasmach. Jeżeli opóźnienie zespołu 48 filtrów działania dziesiętnego, 8-pasmowych nie jest takie samo, jak zespołów filtrów 32-pasmowych, wówczas etap kompensacji opóźnienia 50 jest wykorzystywany gdzieś w torze sygnabi 24-48 kHz dla zapewnienia, żeby oba przebiegi czasowe wyrównywały się przed zespołem filtrów rekombinacji 2-pasmowych w dekoderze W systemie kodowania z próbkowaniem 96 kHz, pasmo akustyczne 24-48 kHz jest opóźniane o 384 próbki i następnie dzielone na 8 jednorodnych pasm przy zastosowaniu zespołu filtrów interpolacji 128-zaczepowych Każde z podpasm 3 kHz jest kodowane 521 upakowywane 54 przez kodowane dane pasma 0-24 kHz w celu utworzenia skompresowanego strumienia danych 16.

Po dojściu do dekodera 18 skompresowany strumień danych 16 jest rozpakowywany 56 i kody zarówno dla dekodera 32-pasmowego w zakresie 0-24 kHz, jak i dekodera 8-pasmowego w zakresie 24-48 kHz, są rozdzielane i dostarczane do poszczególnych etapów dekodowania 42 i 58 Osiem i trzydzieści dwa dekodowane podpasma są odtwarzane przy zastosowaniu jednorodnych zespołów 60 i 44 filtrów interpolacji 128-zaczepowych 1512-zaczepowych. Dekodowane podpasma sąkolejno rekombinowane przy zastosowaniu jednorodnego zespołu 62 filtrów interpolacji 256-zaczepowych, 2-pasmowych dla wytwarzania pojedynczego, cyfrowego sygnału akustycznego z modulacją kodowo-impulsową z szybkością próbkowania 96 kHz. W przypadku, gdy jest pożądane, żeby dekoder działał z połowiczną szybkością próbkowania skompresowanego strumienia danych, może to być dogodnie przeprowadzone przez odrzucenie kodowanych danych pasma górnego 24-48 kHz i dekodowanie tylko 32 podpasm w zakresie akustycznym 0-24 kHz.

We wszystkich opisanych strategiach kodowania proces kodowania-dekodowania 32-pasmowego jest przeprowadzany dla części pasma podstawowego o szerokości pasma akustycznego 0-24 kHz.

Figura 5 pokazuje urządzenie wprowadzania i zapisywania 64 obrazów, które okienkuje kanał danych akustycznych z modulacjąkodowo-impulsową 14 dla segmentowania go na kolejne ramki 66 danych. Okno akustyczne z modulacją kodowo-impulsową określa liczbę ciągłych próbek wejściowych, dla których proces kodowania powoduje wytwarzanie ramki wyjściowej w strumieniu danych. Wielkość okna jest ustalana w oparciu o stopień kompresji, to jest stosunek szybkości transmisji do szybkości próbkowania, tak że ilość danych kodowanych w każdej ramce jest ograniczona. Każda kolejna ramka 66 danych jest dzielona na 32 jednorodne pasma częstotliwościowe 68 przez zespół 34 filtrów działania dziesiętnego FIR 512-zaczepowych, 32-pasmowych. Próbki wyjściowe z każdego podpasma są buforowane i dostarczane do etapu kodowania 32-pasmowego 36.

Na fig. 10-19 jest opisany szczegółowo etap analizy 70, podczas którego są wytwarzane optymalne współczynniki prognozowania, przydziały bitów urządzenia kwantującego różnicowego i optymalne współczynniki skalowania urządzenia kwantującego dla buforowanych próbek podpasma Etap analizy 70 decyduje także, które podpasma są kwantowane wektorowo

183 498 i które sąkodowane łącznie częstotliwościowo, jeżeli te decyzje nie są stałe. Te dane lub informacja wstęgi bocznej są kierowane do przodu do wybranego etapu z modulacją ADPCM 72, etapu kwantowania wektorowego 73 lub etapu kodowania JFC 74 łącznie częstotliwościowo oraz do multipleksera 32 danych układu upakowującego.

Próbki podpasma są następnie kodowane w procesie z modulacją ADPCM lub kwantowania wektorowego i kody kwantowania są wprowadzane do multipleksera. Etap JFC 74 nie koduje aktualnie próbek podpasma, lecz wytwarza kody wskazujące, które podpasma kanałów są połączone i gdzie są one umieszczone w strumieniu danych. Kody kwantowania i informacja wstęgi bocznej każdego podpasma sąupakowywane w strumieniu danych 16 i przesyłane do dekodera.

Po dojściu do dekodera 18 strumień danych jest demultipleksowany 40 lub rozpakowywany z powrotem do indywidualnych podpasm. Współczynniki skalowania i przydziały bitów są najpierw instalowane w urządzeniach kwantujących odwrotnych 75 wraz ze współczynnikami prognozowania dla każdego podpasma. Kody różnicowe sąnastępnie odtwarzane przy zastosowaniu albo procesu z modulacją ADPCM 76 albo odwrotnego procesu kwantowania wektorowego 77 bezpośrednio albo odwrotnego procesu JFC 78 dla wyznaczonych podpasm. Podpasma są w końcu łączone z powrotem do pojedynczego sygnału akustycznego z modulacjakodowo-impulsową22 przy zastosowaniu zespołu 44 filtrów interpolacji 32-pasmowych.

Figura 6 pokazuje, że przy ramkowaniu sygnału z modulacją kodowo-impulsową, urządzenie wprowadzania i zapisywania 64 obrazów, pokazane na fig. 5, zmienia wielkość okna 79, gdy szybkość transmisji zmienia się dla danej szybkości próbkowania, tak że liczba bajtów na ramkę wyjściową 80 jest ograniczona do zakresu na przykład od 5,3 kilobajtów do 8 kilobajtów/. Tabele 112 są tabelami projektowania, które umożliwiają projektantowi wybrać optymalną wielkość okna i wielkość bufora dekodera czyli wielkość ramki dla danej szybkości próbkowania i szybkości transmisji. Przy małych szybkościach transmisji wielkość ramki jest stosunkowo duża. To umożliwia koderowi wykorzystanie niepłaskiego rozkładu wariancji sygnału akustycznego w czasie i poprawę osiągnięć kodera akustycznego. Przy dużych szybkościach wielkość ramki jest zmniejszona, tak ze całkowita liczba bajtów nie przepełnia bufora dekodera. W wyniku tego projektant dostarcza do dekodera 8 kilobajtów pamięci RAM w celu zapewnienia wszystkich szybkości transmisji To powoduje uproszczenie dekodera. Ogólnie wielkość okna akustycznego jest dana przez równanie'

Okno akustyczne = (Wielkość ramki)* Fprób*

T \ szybkość gdzie wielkość ramki jest wielkością bufora dekodera, Fprób jest szybkością próbkowania i T_szybkosć jest szybkością transmisji. Wielkość okna akustycznego jest niezależna od liczby kanałów akustycznych Jednak gdy liczba kanałów jest zwiększona, stopień kompresji musi także wzrosnąć dla utrzymania wymaganej szybkości transmisji.

Tabela 1 Fprób (kHz)

Tszybkosć	8-12	16-24	32-48	64-96	128-192
< 512kbitna s	1024	2048	4096	*	*
< 1024 kbit nas	*	1024	2048	*	*
< 2048 kbit na s	*	*	1024	2048	*
< 4096 kbit na s	*	*	*	1024	2048

183 498

Tabela 2 Fprób (kHz)

Tsybkosć	8-12	16-24	32-48	64-96	128-192
< 512kbitnas	8-5,3k	8-5,3k	8-5,3k	*	*
< 1024 kbit na s	*	8-5,3k	8-5,3k	*	*
< 2048 kbit na s	*	*	8-5,3k	8-5,3k	*
< 4096 kbit na s	*	*	*	8-5,3k	8-5,3k

Przy filtrowaniu podpasma jednorodny zespół 34 filtrów działania dziesiętnego 512-zaczepowych, 32-pasmowych wybiera z dwóch wielofazowych zespołów filtrów do podziału ramki 66 danych na 32 jednorodne podpasma 68 pokazane na fig. 5. Te dwa zespoły filtrów mają różne własności odtwarzania, które wpływają na wzmocnienie kodowania podpasma co do dokładności odtwarzania. Jedna klasa filtrów jest nazywana doskonałymi filtrami odtwarzania PR. Wówczas gdy filtr kodowania działania dziesiętnego doskonałego filtru odtwarzania i filtr dekodowania interpolacji są umieszczone obok siebie, odtwarzany sygnał jest doskonały, przy czym doskonały jest określony jako zawarty w 0,5 lsb przy 24 bitach rozdzielczości. Druga klasa filtrów jest nazywana niedoskonałymi filtrami odtwarzania NPR, ponieważ odtwarzany sygnał ma mezerowy poziom szumu, który jest związany z własnością niedoskonałego kasowania utożsamiania procesu filtrowania.

Figura 7 pokazuje funkcje przenoszenia 82 i 84 doskonałych i niedoskonałych filtrów odtwarzania dla pojedynczego podpasma. Ze względu na to, że niedoskonałe filtry odtwarzania me sąograniczone do zapewniania doskonałego odtwarzania, wykazują znacznie większe współczynniki eliminacji NSBR pasma bliskiego tłumieniowemu, to jest stosunek pasma przepustowego do pierwszego płata bocznego charakterystyki, niż doskonałe filtry odtwarzania 110 dB do 85 dB.

Figura 8 pokazuje płaty boczne filtru, powodujące wytwarzanie sygnału 86, który zwykle występuje w trzecim podpasmie dla wprowadzenia do sąsiednich podpasm. Wzmocnienie podpasma mierzy eliminację sygnału w sąsiednich podpasmach i dlatego wskazuje zdolność filtru do uniezależnienia sygnału akustycznego. Ze względu na to, że filtry NPR mają znacznie większy współczynnik NSBR niż filtry PR, będą także miały znacznie większe wzmocnienie podpasma. W wyniku tego filtry NPR zapewniają lepszą wydajność kodowania.

Figura 9 pokazuje całkowite zakłócenie skompresowanego strumienia danych zmniejszone, gdy całkowita szybkość transmisji bitów wzrasta dla obu filtrów PR i NPR. Jednak przy małych szybkościach różnica wartości wzmocnienia podpasma pomiędzy dwoma typami filtrów jest większa niż poziom szumu związany z filtrem NPR. Zatem krzywa zakłócenia 90 związana z filtrem NPR jest usytuowana poniżej krzywej zakłócenia 92 związanej z filtrem PR. Wobec tego przy małych szybkościach koder akustyczny wybiera zespół filtrów NPR. W pewnym punkcie 94 błąd kwantowania kodera spada poniżej poziomu szumu filtru NPR tak, że dodanie bitów dodatkowych do kodera z modulacją aDpCM nie daje żadnych dodatkowych korzyści W tym punkcie koder akustyczny przełącza się na zespół filtrów PR.

Przy kodowaniu z modulacją ADPCM, koder z modulacją ADPCM 72 wytwarza próbkę prognozowaną p(n) z kombinacji liniowej H poprzednio odtworzonych próbek. Ta próbka prognozowana jest następnie odejmowana od wejścia x(n) dla dania próbki różnicowej d(n). Próbki różnicowe są skalowane przez podzielenie ich przez współczynnik skalowania RMS lub PEAK dla dopasowania amplitud RMS próbek różnicowych do charakterystyki Q urządzenia kwantującego. Skalowana próbka różnicowa ud(n) jest wprowadzana do charakterystyki urządzenia kwantującego z poziomami L etapu-wielkości SZ, jak to określono przez liczbę bitów ABIT przydzielonych bieżącej próbce Urządzenie kwantujące wytwarza kod poziomu QL(n) dla każdej

183 498 skalowanej próbki różnicowej ud(n). Te kody poziomu są ostatecznie przesyłane do stopnia z modulacją ADPCM dekodera. Dla aktualizacji prognozowanej historii, kody poziomu QL(n) urządzenia kwantującego są miejscowo dekodowane przy zastosowaniu odwrotnego urządzenia kwantującego 1/Q o charakterystyce identycznej do Q w celu wytwarzania kwantowanej, skalowanej próbki różnicowej ud(n). Próbka ud(n) jest ponownie skalowana przez pomnożenie jej przez współczynnik skalowania RMS lub PEAK, w celu wytworzenia d(n). Kwantowana wersja x(n) pierwotnej próbki wejściowej x(n) jest odtwarzana przez dodanie początkowej próbki prognozowania p(n) do kwantowanej próbki różnicowej d(n). Ta próbka jest następnie stosowana do aktualizacji prognozowanej historii.

Przy kwantowaniu wektorów, współczynniki prognozowania i próbki pasma podstawowego wielkiej częstotliwości sąkodowane przy zastosowaniu kwantowania wektorowego. Prognozowane kwantowanie wektorowe ma wymiar wektora 4 próbek i szybkości transmisji bitów 3 bity na próbkę. Końcowa książka kodów składa się zatem z 4096 wektorów kodowych o wymiarze 4. Wyszukiwanie wektorów dopasowanych ma strukturę dwupoziomowego drzewa, w którym każdy węzeł drzewa ma 64 gałęzie. Poziom górny pamięta 64 wektory kodowe węzła, które są potrzebne tylko w koderze do wspomagania procesu wyszukiwania. Poziom dolny styka się z 4096 końcowymi wektorami kodowymi, które są wymagane zarówno w koderze jak i dekoderze. Dla każdego wyszukiwaniajest wymaganych 128 obliczeń MSE wymiaru 4. Książka kodów i wektory węzłów na poziomie górnym są szkolone przy zastosowaniu metody LEG, z ponad 5 milionami wektorów szkolących współczynników prognozowania. Wektory szkolące są gromadzone dla całego podpasma, które ma dodatnie wzmocnienie prognozowania, przy kodowaniu szerokiego zakresu materiału akustycznego. Dla wektorów badanych w zespole szkolącym, uzyskuje się średnie SNR w przybliżeniu 30 dB.

Kwantowanie wektorowe wielkiej częstotliwości ma wymiar wektora 32 próbek, długość podramki i szybkość transmisji 0,3125 bitów na próbkę. Końcowa książka kodów składa się zatem z 1024 wektorów kodów o wymiarze 32. Wyszukiwanie wektorów dopasowanych ma strukturę dwupoziomowego drzewa, w którym każdy węzeł drzewa ma 32 gałęzie. Poziom górny pamięta 32 wektory kodowe węzła, które są potrzebne tylko w koderze. Poziom dolny zawiera 1024 końcowych wektorów kodowych, które są wymagane zarówno w koderze jak i dekoderze. Dla każdego wyszukiwania są wymagane 64 obliczenia MSE wymiaru 32. Książka kodów i wektory węzłów na poziomie górnym są szkolone przy zastosowaniu metody LBG, z ponad 7 milionami wektorów szkolących próbki podpasma wielkiej częstotliwości. Próbki, które tworzą wektory, są gromadzone z wyjść podpasm 16 do 32 przy szybkości próbkowania 48 kHz dla szerokiego zakresu materiału akustycznego. Przy szybkości próbkowania 48 kHz, próbki szkolące reprezentują częstotliwości akustyczne w zakresie od 12 do 24 kHz. Dla wektorów badanych w zespole szkolącym, uzyskuje się średnie SNR w przybliżeniu 3 dB. Chociaż 3 dB jest małym SNR, jest ono wystarczające do zapewniania dokładności wielkich częstotliwości lub wierności przy tych wielkich częstotliwościach. To jest percepcyjnie znacznie lepsze niż znane techniki, które po prostu obniżają podpasma wielkiej częstotliwości.

Przy kodowaniu łącznym częstotliwościowym, w zastosowaniach z bardzo małą szybkościątransmisji bitów dokładność całkowitego odtwarzania można poprawić przez kodowanie tylko dodawania sygnałów podpasma wielkiej częstotliwości z dwóch lub więcej kanałów akustycznych zamiast kodowania ich niezależnie. Kodowanie łączne częstotliwościowejest możliwe, ponieważ podpasma wielkiej częstotliwości często mają podobne rozkłady energii i ponieważ układ słuchowy człowieka jest czuły głównie na natężenie składowych o wielkich częstotliwościach, zamiast ich dokładną strukturę. Zatem odtworzony sygnał średni zapewnia dobrą dokładność całkowitą, ponieważ przy dowolnej szybkości transmisji bitów dostępnych jest więcej bitów do kodowania wyczuwalnie ważnych małych częstotliwości.

Indeksy kodowania łącznego częstotliwościowego JOINX są przesyłane bezpośrednio do dekodera w celu wskazania, które kanały i podpasma zostały połączone i gdzie kodowany sygnał jest usytuowany w strumieniu danych. Dekoder odtwarza sygnał w wyznaczonym kanale i następnie kopiuje go do każdego z pozostałych kanałów. Każdy kanał jest następnie skalowany zgodnie

183 498 z poszczególnym współczynnikiem skalowania RMS. Ze względu na to, że kodowanie łączne częstotliwościowe powoduje uśrednianie sygnałów czasowych w oparciu o podobieństwo rozkładów energii, dokładność odtwarzania jest zmniejszona. Zatem jego zastosowanie jest zwykle ograniczone do zastosowań z małą szybkościątransmisji bitów i głównie do sygnałów 10-20 kHz. W środowisku do zastosowań z dużą szybkością transmisji bitów kodowanie łączne częstotliwościowe jest zwykle uniemożliwione.

Figura 10 wyjaśnia działanie kodera podpasma i procesu kodowania dla pojedynczego pasma bocznego, który jest kodowany przy zastosowaniu procesów z modulacją ADPCM/APCM, a zwłaszcza oddziaływanie wzajemne etapu analizy 70 i kodera z modulacją ADPCM 72, pokazane na fig. 5 oraz system zarządzania 30 bitami globalnymi, pokazany na fig. 2.

Figury 11-19 pokazują szczegółowo procesy składowe pokazane na fig. 13. Zespół 34 filtrów dzieli sygnał danych akustycznych z modulaccjąkodowo-impulsowa 14 na sygnały x(n) 32 podpasm, które są wpisane w poszczególne bufory 96 próbkowania podpasma. Zakładając wielkość okna akustycznego 4096 próbek, każdy bufor 96 próbkowania podpasma pamięta pełną ramkę z 128 próbek, które są dzielone na 4 podramki 32-próbkowe. Wielkość okna z 1024 próbek powodowałby wytwarzanie pojedynczej podramki z 32 próbek. Próbki x(n) sąkierowane do etapu analizy 70 w celu określania współczynników prognozowania, trybu prognozowania PMODE, przejściowego trybu pracy TMODE i współczynników skalowania SF dla każdej podramki. Próbki x(n) są także dostarczane do systemu zarządzania 30, który określa przydział bitów ABIT dla każdej podramki na podpasmo na kanał akustyczny. Następnie próbki x(n) są przepuszczane do kodera z modulacją ADPCM 72, po jednej podramce w danym czasie.

Przy ocenie optymalnych współczynników prognozowania, współczynniki prognozowania H, korzystnie 4-tego rzędu, są wytwarzane oddzielnie dla każdej podramki, stosując standardową metodę autokorelacji 98 optymalizowaną w bloku próbek x(n) podpasma, to jest równań Weinera-Hopfa lub Yule’a-Walkera.

Przy kwantowaniu optymalnych współczynników prognozowania, każdy zespół czterech współczynników prognozowania jest korzystnie kwantowany przy zastosowaniu książki kodów 12-bitowych wektorów 4-elementowego wyszukiwania drzewa, 3 bity na współczynnik, opisanej powyżej. Książka kodów 12-bitowyjh wektorów zawiera 4096 wektorów współczynników, które są optymalizowane dla wymaganego rozkładu prawdopodobieństwa przy zastosowaniu standardowego algorytmu grupowania. Wyszukiwanie 100 kwantowania wektorowego wybiera wektor współczynnika, który ma najmniejszy ważony średni błąd kwadratowy względem współczynników optymalnych. Współczynniki optymalne dla każdej podramki są następnie zastępowane przez te “kwantowane wektory. Odwrotny kwantowany wektorowo LUT 101 jest stosowany do dostarczania kwantowanych współczynników prognozowanych do kodera z modulacją ADPCM 72.

Przy ocenie sygnału różnicowego prognozowania d(n), problemem z modulacją ADPCM jest to, że sekwencja próbek różnicowych d(n) nie może być łatwo prognozowana przed rzeczywistym procesem rekurencyjnym 72. Podstawowym wymaganiem podpasma adaptacyjnego z modulacją ADPCM w przód jest to, żeby energia sygnału różnicowego była znana przed kodowaniem z modulacją ADPCM w celu obliczania właściwego przydziału bitów dla urządzenia kwantującego, które wytwarza znany błąd kwantowania lub poziom szumu w odtwarzanych próbkach. Znajomość energii sygnału różnicowego jest także wymagana do umożliwienia określenia optymalnego współczynnika skalowania różnicowego przed kodowaniem.

Niekorzystnie energia sygnału różnicowego nie tylko zależy od charakterystyk sygnału wejściowego, lecz także od osiągnięć urządzenia prognozującego. Poza znanymi ograniczeniami, takimi jak rząd prognozowania i optymalność współczynników prognozowania, na osiągnięcia urządzenia prognozującego wpływa także poziom błędu kwantowania lub szumu indukowanego w odtwarzanych próbkach. Ze względu na to, że szum kwantowania jest wyznaczony przez końcowy przydział bitów ABIT i same wartości współczynnika skalowania różnicowego RMS lub PEAK, ocena energii sygnału różnicowego musi następować iteracyjnie 102.

183 498

W etapie 1 następuje założenie zerowego błędu kwantowania. Pierwsza ocena sygnału różnicowego jest dokonywana przez przeprowadzenie buforowanych próbek x(n) podpasma przez proces z modulacją ADPCM, w którym nie dokonuje się kwantowania sygnału różnicowego. To jest uzyskiwane przez uniemożliwienie kwantowania i skalowania RMS w pętli kodowania z modulacją ADPCM. Przez ocenę sygnału różnicowego d(n) w ten sposób, usuwane są z obliczeń wpływy wartości współczynników skalowania i przydziałów bitów Jednak wpływ błędu kwantowania na współczynniki prognozowania jest brany pod uwagę w procesie przez zastosowanie wektorowych, kwantowanych współczynników prognozowania. Odwrotny kwantowany wektorowe lut 104 jest stosowany do dostarczania kwantowanych współczynników prognozowania. W celu dalszego zwiększenia dokładności ocenianego prognozowania, próbki historii z rzeczywistego prognozowania z modulacją ADPCM, które były zgromadzone na końcu poprzedniego bloku, sąkopiowane dla prognozowania przed obliczaniem. To zapewnia, że prognozowanie rozpoczyna się od tego miejsca, gdzie rzeczywiste prognozowanie z modulacją ADPCM pozostało na końcu poprzedniego bufora wejściowego.

Główna różnica pomiędzy tą oceną ed(n) i rzeczywistym procesem d(n) jest taka, ze jest ignorowany wpływ szumu kwantowania na odtwarzane próbki x(n) i na zmniejszoną dokładność prognozowania. W przypadku urządzeń kwantujących o dużej liczbie poziomów, poziom szumu będzie zwykle mały, zakładając właściwe skalowanie i dlatego rzeczywista energia sygnału różnicowego będzie dokładnie dopasowana do obliczonej podczas oceny. Jednak gdy liczba poziomów urządzenia kwantuj ącego jest mała, j akj est to w przypadku typowych koderów akustycznych o małej szybkości transmisji bitów, rzeczywisty sygnał prognozowany i dlatego energia sygnału różnicowego mogą znacznie różnić się od ocenianej. To powoduje wytwarzanie poziomów szumu kodowania, które różnią się od prognozowanych wcześniej w procesie adaptacyjnym przydzielania bitów.

Pomimo tego zmiana w osiągnięciach prognozowania może me być znaczna dla zastosowania lub szybkości transmisji bitów/. Zatem ocena może być stosowana bezpośrednio do obliczania przydziałów bitów i współczynników skalowania bez iteracji. Dodatkowym uściśleniem byłaby kompensacja strat osiągnięć przez rozmyślną nadmierną ocenę energii sygnału różnicowego, jeżeli jest prawdopodobne, że urządzenie kwantujące o małej liczbie poziomów ma być przydzielone temu podpasmu. Nadmierna ocena może być także stopniowana zgodnie ze zmieniającą się liczbą poziomów urządzenia kwantującego dla poprawy dokładności.

W etapie 2 następuje ponowne obliczanie przy zastosowaniu ocenianych przydziałów bitów i współczynników skalowania. Po wytworzeniu przydziałów bitów ABIT i współczynników skalowania SF przy zastosowaniu pierwszego sygnału różnicowego oceny, ich optymalność może być zbadana przez przeprowadzenie dalszego procesu oceny z modulacjąADPĆM przy zastosowaniu ocenianych wartości ABIT i RMS czyli PEAK w pętli z modulacją ADPCM 72. Jak przy pierwszej ocenie, historia ocenianego prognozowania jest kopiowana z rzeczywistego prognozowania z modulacją ADPCM przed rozpoczęciem obliczania dla zapewnienia, żeby oba prognozowania rozpoczynały się od tego samego punktu. Po przejściu buforowanych próbek wejściowych przez tę drugą pętlę oceny, uzyskiwany poziom szumu w każdym podpasmie jest porównywany z założonym poziomem szumu w procesie adaptacyjnym przydziału bitów. Jakiekolwiek znaczne różnice mogą być kompensowane w celu modyfikacji przydziału bitów i/lub współczynników skalowania.

Etap 2 może być powtórzony w celu właściwego uściślenia poziomu rozłożonego szumu w odpasmach, za każdym razem stosując najbardziej aktualną ocenę sygnału różnicowego do obliczania następnego zespołu przydziałów bitów i współczynników skalowania. Ogólnie, jeżeli współczynniki skalowania zmieniałyby się więcej niż w przybliżeniu 2-3 dB, następnie są one ponownie obliczane. Inaczej przydział bitów stwarzałby niebezpieczeństwo zakłócenia współczynników sygnał do maski, uzyskiwanych w psychoakustycznym procesie maskowania lub odmiennie w procesie mmse. Zwykle jest wystarczająca pojedyncza iteracja.

Przy obliczaniu trybów prognozowania PMOD podpasma, w celu poprawy wydajności kodowania sterownik 106 dowolnie wyłącza proces prognozowania, gdy wzmocnienie prognozowania

183 498 w bieżącej podramce spada poniżej poziomu progowego przez nastawienie znacznika stanu PMODE. Znacznik stanu PMODE jest nastawiany na jeden, gdy wzmocnienie prognozowania, stosunek energii sygnału wejściowego i ocenianej energii sygnału różnicowego, mierzony podczas etapu oceny dla bloku próbek wejściowych, przekracza pewien dodatni poziom progowy Odwrotnie, jeżeli mierzone wzmocnienie prognozowania jest mniejsze niż dodatni poziom progowy, współczynniki prognozowania z modulacją ADPCM sąnastawiane na zero zarówno w koderze jak i dekoderze dla tego pasma i poszczególny PMODE jest nastawiany na zero. Poziom progowy wzmocnienia prognozowania jest nastawiany tak, że jest równy stopniowi zakłócenia organizacji transmitowanego wektora współczynnika prognozowania. To jest dokonywane w celu zapewnienia, że gdy PMODE = 1, wzmocnienie kodowania dla procesu z modulacją ADPCM jest zawsze większe lub równe wzmocnieniu kodowania w procesie kodowania adaptacyjnym z modulacją kodowo-impulsową w przód. Inaczej przez nastawienie PMODE na zero i przestawienie współczynników prognozowania, proces z modulacją ADPCM jest odwracany po prostu na APCM.

Znaczniki stanu PMODE mogą być nastawione na stan wysoki w dowolnym lub wszystkich podpasmach, jeżeli zmiany wzmocnienia kodowania z modulacją ADPCM nie są ważne dla programu użytkowego. Odwrotnie, znaczniki stanu PMODE mogą być nastawione na stan niski, jeżeli na przykład pewne podpasma nie mająbyć wcale kodowane, szybkość transmisji bitów w programie użytkowymjest dość wysoka, tak że nie są wymagane wzmocnienia prognozowania do utrzymania subiektywnej jakości akustycznej, zawartość przejściowa sygnału jest duża lub charakterystyka trwałego połączenia kodowanych sygnałów akustycznych z modulacją ADPCM nie jest po prostu pożądana, jak to może mieć miejsce w przypadku programów użytkowych przy nadawaniu sygnałów akustycznych.

Oddzielne tryby prognozowania PMODE sątransmitowane dla każdego podpasma z szybkością równą szybkości aktualizacji liniowego prognozowania w procesach kodowania i dekodowania z modulacją ADPCM. Celem parametru PMODE jest wskazanie dekoderowi, czy określone podpasmo będzie miało dowolny adres wektora współczynnika prognozowania, związany z jego blokiem kodowanych danych akustycznych. Wówczas gdy PMODE = 1 w dowolnym podpasmie, adres wektora współczynnika prognozowania będzie zawsze wprowadzony do strumienia danych. Wówczas gdy PMODE = 0 w dowolnym podpasmie, adres wektora współczynnika prognozowania nie będzie nigdy wprowadzony do strumienia danych i współczynniki prognozowania są nastawione na zero w etapach zarówno kodowania jak i dekodowania z modulacją ADPCM.

Obliczanie PMODE rozpoczyna się przez analizę energii buforowanego sygnału wejściowego podpasma względem odpowiednich energii buforowanego ocenianego sygnału różnicowego, otrzymywanych podczas oceny pierwszego etapu, to jest zakładając brak błędu kwantowania. Zarówno próbki wejściowe x(n) jak i oceniane próbki różnicowe ed(n) są buforowane dla każdego podpasma oddzielnie. Wielkość buforu jest równa liczbie próbek zawartych w każdym okresie aktualizacji prognozowania, na przykład wielkości podramki. Wzmocnienie prognozowania jest następnie obliczane jako:

Pwzmocnienie (dB) - 20.0 * Logi0 (RMSx(n)RMSed(n)) gdzie RMSx(n) = wartość średnia kwadratowa buforowanych próbek wejściowych x(n) i RMSed(n) = wartość średnia kwadratowa buforowanych, ocenianych próbek różnicowych ed(n).

Dla dodatnich wzmocnień prognozowania, sygnał różnicowy jest przeciętnie mniejszy niż sygnał wejściowy i dlatego może być osiągany zmniejszony szum odtwarzania przy zastosowaniu procesu z modulacją ADPCM w APCM dla tej samej szybkości transmisji bitów. Dla ujemnych wzmocnień, koder z modulacją ADPCM wytwarza sygnał różnicowy przeciętnie większy niż sygnał wejściowy, co daje większe poziomy szumu niż APCM dla tej samej szybkości transmisji bitów. Zwykle poziom progowy wzmocnienia prognozowania, który włączą PMODE, będzie

183 498 dodatni i będzie miał wartość, która uwzględnia dodatkową pojemność kanału, zużywaną przez transmitowanie adresu wektorowego współczynników prognozowania.

Przy obliczaniu przejściowych trybów TMODE podpasma, sterownik 106 oblicza tryby przejściowe TMODE dla każdej podramki w każdym podpasmie. Tryby TMODE wskazują liczbę współczynników skalowania i próbki w buforze ocenianego sygnału różnicowego ed(n), gdy PMODE = 1lub w buforze sygnału wejściowego x(n) podpasma, gdy PMODE=0, dla których są one ważne. Tryby TMODE są aktualizowane z taką samą szybkością, jak adresy wektorowe współczynników prognozowania i są transmitowane do dekodera Celem trybów przejściowych jest zmniejszenie słyszalnych błędów echa wstępnego kodowania przy występowaniu stanów przejściowych sygnału.

Stan przejściowy jest określony jako szybkie przejście pomiędzy sygnałem o małej amplitudzie i sygnałem o dużej amplitudzie. Ze względu na to, że współczynniki skalowania są uśrednione w bloku próbek różnicowych podpasma, jeżeli szybka zmiana amplitudy sygnału ma miejsce w bloku, to jest jeżeli występuje stan przejściowy, obliczony współczynnik skalowania dąży do tego, żeby być znacznie większy niż optymalny dla próbek o małej amplitudzie, poprzedzających stan przejściowy. Dlatego błąd kwantowania w próbkach poprzedzających stan przejściowy może być bardzo duży

Ten szum jest odbierany jako zakłócenie typu echa wstępnego.

W praktyce tryb przejściowy jest stosowany do modyfikacji współczynnika skalowania podpasma, uśredniającego długość bloku dla ograniczania wpływu stanu przejściowego na skalowanie próbek bezpośrednio go poprzedzających. Uzasadnieniem zrobienia tego jest zjawisko maskowania wstępnego właściwe dla układu słuchowego człowieka, który sugeruje, że w obecności stanów przejściowych, szum może być maskowany przed stanem przejściowym, przy założeniu, że jego czas trwania jest krótki.

W zależności od wartości PMODE, albo zawartość, to jest podramka, bufora próbki x(n) podpasma albo ed (n) bufora ocenianej różnicy sąkopiowane do bufora analizy przejściowej Tutaj zawartości bufora są dzielone jednorodnie na 2, 3 lub 4 pod-podramki, w zależności od wielkości próbki bufora analizy. Dla przykładu, jeżeli bufor analizy zawiera próbki 32 podpasm (21,3 ms @1500 Hz), bufor jest dzielony na 4 pod-podramki, każda z 8 próbek, dając rozdzielczość czasu

5,3 ms dla szybkości próbkowania podpasma 1500 Hz. Odmiennie, jeżeli okno analizy było konfigurowane przy 16 próbkach podpasma, wówczas bufor musi być podzielony tylko na dwie pod-podramki, aby dać taką samą rozdzielczość czasu.

Sygnał w każdej pod-podramce jest analizowany i jest określany stan przejściowy każdej, innej niż pierwsza. Jeżeli jakieś pod-podramki są oceniane jako przejściowe, wytwarzane sądwa oddzielne współczynniki skalowania dla bufora analizy, to jest bieżącej podramki. Pierwszy współczynnik skalowania jest obliczany z próbek w pod-podramkach poprzedzających przejściową pod-podrąmkę. Drugi współczynnik skalowania jest obliczany z próbek w przejściowej pod-podramce wraz ze wszystkimi poprzednimi pod-podramkami.

Stan przejściowy pierwszej pod-podramki nie jest obliczany, ponieważ szum kwantowania jest ograniczony automatycznie przez początek samego okna analizy. Jeżeli więcej niż jedna pod-podramka jest określanajako przejściowa, wówczas jest rozważana tylko ta, która występuje pierwsza Jeżeli nie są wykrywane wcale żadne podbufory przejściowe, wówczas jest obliczany tylko pojedynczy współczynnik skalowania, stosując wszystkie z próbek w buforze analizującym. W ten sposób wartości współczynnika skalowania, które zawierająpróbki przejściowe, nie są stosowane do skalowania wcześniejszych próbek więcej niż okres pod-podramki w czasie wstecz Szum kwantowania przejściowego jest więc ograniczony do okresu pod-podramki

Przy określaniu stanu przejściowego, pod-podramka jest określanaj ako przejściowa, jeżeli stosunek jej energii w poprzednim podbuforze przekracza przejściowy poziom progowy (TT) i energia w poprzedniej podramce jest poniżej poziomu progowego przejściowego wstępnego (PTT). Wartości TT i PTT zależą od szybkości transmisji bitów i stopnia wymaganego tłumienia echa wstępnego. Są one normalnie zmieniane, aż zakłócenie typu odbieranego echa wstępnego dopasowuje się do poziomu innych błędów kodowania, jeżeli one istnieją. Zwiększenie wartości

183 498

TT i/lub zmniejszenie wartości PTT powoduje malenie prawdopodobieństwa określania pod-podramekjako przejściowe i dlatego zmniejsza szybkość transmisji bitów związaną z transmisją współczynników skalowania. Odwrotnie, zmniejszenie wartości TT i/lub zwiększenie wartości PTT powoduje wzrost prawdopodobieństwa określania pod-podramek jako przejściowe i dlatego zwiększa szybkość transmisji bitów związaną z transmisją współczynników skalowania.

Jeżeli TT i PTT są indywidualnie nastawiane dla każdego podpasma, czułość wykrywania stanu przejściowego kodera może być dowolnie nastawiana dla dowolnego podpasma. Dla przykładu, jeżeli zostaje wykryte, że echo wstępne w podpasmach wielkiej częstotliwości jest mniej wyczuwalne niż w podpasmach mniejszej częstotliwości, wówczas poziomy progowe mogą być nastawiane na zmniejszenie prawdopodobieństwa stanów przejściowych określanych w podpasmach większej częstotliwości. Ponadto, ponieważ tryby tMoDe są wprowadzane do skompresowanego strumienia danych, dekoder nigdy nie potrzebuje znać algorytmu wykrywania stanu przejściowego stosowanego w koderze w celu właściwego dekodowania informacji TMODE.

Zostanie teraz opisana konfiguracja z czterema podbuforami

Figura 11apokazuje, zejeżeli pierwszapod-podramka 108 w buforze analizującym 109 podpasma jest przejściowa lub jeżeli nie są wykrywane żadne pod-podramki przejściowe, wówczas TMODE = 0 Jeżeli druga pod-podramka jest przejściowa, a nie pierwsza, wówczas TMODE = 1 Jeżeli trzecia pod-podramka jest przejściowa, a nie pierwsza lub druga, wówczas TMODE = 2. Jeżeli tylko czwarta pod-podramka jest przejściowa, lecz nie pierwsza, wówczas TMODE = 3

Figura 11b pokazuje, ze przy obliczaniu współczynników skalowania, gdy TMODE = 0, współczynniki skalowania 110 są obliczane we wszystkich pod-podramkach. Wówczas gdy TMODE = 1, pierwszy współczynnik skalowaniajest obliczany w pierwszej pod-podramce i drugi współczynnik skalowania w poprzednich pod-podramkach. Wówczas gdy TMODE = 2, pierwszy współczynnik skalowania jest obliczany w pierwszej i drugiej pod-podramce i drugi współczynnik skalowania we wszystkich poprzednich pod-podramkach. Wówczas gdy TMODE = 3, pierwszy współczynnik skalowania jest obliczany w pierwszej, drugiej i trzeciej pod-podramce i drugi współczynnik skalowania jest obliczany w czterech pod-podramkach.

Przy kodowaniu i dekodowaniu z modulacją ADPCM, stosując tryb TMODE, gdy TMODE = 0, pojedynczy współczynnik skalowania jest stosowany do skalowania próbek różnicowych podpasma dla czasu trwania całego bufora analizującego, tojest podramki ijest transmitowany do dekodera dla ułatwienia skalowania odwrotnego. Wówczas, gdy TMODE > 0, dwa współczynniki skalowania są stosowane do skalowania próbek różnicowych podpasma i oba są transmitowane do dekodera. Dla dowolnego trybu TMODe każdy współczynnik skalowaniajest stosowany do skalowania próbek różnicowych stosowanych do wytwarzania go w pierwszym miejscu.

Przy obliczaniu współczynników skalowania podpasma RMS lub PEAK, w zależności od wartości PMODE dla tego podpasma, albo oceniane próbki różnicowe ed(n) albo próbki wejściowe x(n) podpasma są stosowane do obliczania właściwych współczynników skalowania. Tryby tMoDe są stosowane przy tym obliczaniu do określania zarówno liczby współczynników skalowania, jak i do identyfikacji pod-podramek w buforze.

Przy obliczaniu współczynnika skalowania RMS, dla j-tego podpasma współczynniki skalowania rms są obliczane jak następuje.

Gdy TMODE=0, wówczas pojedyncza wartość rms jest:

RMS_a J^ed(n)² /L k„=i gdzie L jest liczbą próbek w podramce.

Gdy TMODE > 0, dwie wartości rms są·

RMSJ J^ed(n)² /L

183 498 żk+l ' ^RMS2J⁼ Z^ed(ⁿ)^{2 /L}

Vn = l >

0,5 gdzie k=(TMODE*L/NSB) i NSB jest liczbą jednorodnych pod-podramek.

Jeżeli PMODE=0, wówczas próbki edj(n) są zastępowane przez próbki wejściowe Xj(n).

Przy obliczaniu współczynnika skalowania PeAk, dla j-tego podpasma współczynniki skalowania szczytowego są obliczane jak następuje.

Gdy TMODE=0, pojedyncza wartość szczytowa jest:

PeAKj max (ABS (edj(n)) dla n=1, L

Gdy TMODE>0, dwie wartości szczytowe są:

PEAK1=max(ABS (edJn)) dla n=1, (TMODE*L/NBS)

PEAK2=max(ABS(ed_J(n)) dla n=(HTMODE*L/NBS), L

Jeżeli PMODE=0, wówczas próbki edj(n) sązastępowane przez próbki wejściowe XJ(n).

Przy kwantowaniu PMODE, TMODE i współczynników skalowania i kwantowaniu trybów PMODE, znaczniki stanu prognozowania mają tylko dwie wartości, włączenia lub wyłączenia, i są transmitowane do dekodera bezpośrednio jako kody 1 -bitowe.

Przy kwantowaniu trybów TMODE, znaczniki stanu przejściowego mają maksymalnie 4 wartości: 0,1, 2 i 3 i są albo transmitowane do dekodera bezpośrednio, stosując 2-bitowe słowa kodu liczb całkowitych bez znaku lub opcjonalnie przez 4-poziomową tablicę entropii w celu zmniejszenia średniej długości słowa TMODE do poniżej 2 bitów. Zwykle opcjonalne kodowanie entropii jest stosowane do programów użytkowych o małej szybkości transmisji bitów w celu zachowania bitów.

Figura 12 przedstawia szczegółowo proces kodowania 112 entropii, jest jak następuje· kody stanu przejściowego TMODE(j) dla j podpasm są odwzorowywane do postaci liczby p 4-poziomowej książki kodów o zmiennej długości i środkowym elemencie wyniesionym nad wiersz, gdzie każda książka kodów jest optymalizowana dla różnej wejściowej charakterystyki statystycznej. Wartości TMODE są odwzorowywane w 4-poziomowych tabelach 114 i jest obliczane 116 całkowite użycie bitów, związane z każdątabeląNBp. Tabela, która zapewnia najmniejsze użycie bitów w procesie odwzorowania, jest wybierana 118 przy zastosowaniu indeksu THUFF. Odwzorowane kody VTMODE(j) są wydzielane z tej tabeli, upakowywane i transmitowane do dekodera wraz ze słowem indeksu THUFF. Dekoder, który utrzymuje ten sam zespół

4-poziomowych tabeli odwrotnych, stosuje indeks THUFF do kierowania wejściowych kodów VTMODE(j) o zmiennej długości do właściwej tablicy dla dekodowania z powrotem do indeksów TMODE.

Przy kwantowaniu współczynników skalowania podpasma, w celu transmisji współczynników skalowania do dekodera, muszą być one kwantowane do znanego formatu kodu. W tym systemie są one kwantowane przy zastosowaniu jednorodnej, 64-poziomowej charakterystyki logarytmicznej, jednorodnej, 128-poziomowej charakterystyki logarytmicznej lub jednorodnej, 64-poziomowej charakterystyki logarytmicznej 120 kodowanej ze zmienną szybkością. Urządzenie kwantujące 64-poziomowe ma wielkość stopniową2,25 dB w obu przypadkach i 128-poziomowe wielkość stopniową 1,25 dB. Kwantowanie 64-poziomowe jest stosowane do szybkości transmisji bitów od małych do średnich, a dodatkowe kodowanie ze zmienną szybkościąjest stosowane do programów użytkowych o małej szybkości transmisji bitów, a 128-poziomowe jest ogólnie stosowane do dużych szybkości transmisji bitów.

Proces kwantowania 120 jest przedstawiony na fig. 13. Współczynniki skalowania RMS lub PEAK są odczytywane z bufora 121, przetwarzane do domeny 122 dziennika i następnie dostarczane albo do 64-poziomowego albo 128-poziomowego, jednorodnego urządzenia kwantującego 124, 126, określonego przez sterowanie 128 stanem kodera. Kwantowane współczynniki skalowania dziennika są następnie wpisywane do bufora 130. Zakres 128 i 64-poziomowych urządzeń kwantujących jest wystarczający do pokrycia współczynników skalowania przez

183 498 zakres dynamiczny o w przybliżeniu 160 dB i 144 dB. 128-poziomowa granica górna jest nastawiana dla pokrycia zakresu dynamicznego 24-bitowych, wejściowych, cyfrowych sygnałów akustycznych z modulacją kodowo-impulsową. 64-poziomowa granica górna jest nastawiana dla pokrycia zakresu dynamicznego 20-bitowych, wejściowych, cyfrowych sygnałów akustycznych z modulacją kodowo-impulsową.

Współczynniki skalowania dziennika są odwzorowywane do urządzenia kwantującego i współczynnik skalowania jest zastępowany przez najbliższy kod poziomu RMSq_L lub pEAKq_Lurządzenia kwantującego. W przypadku 64-po złomowego urządzenia kwantującego te kody mają długość 6 bitów i zakres pomiędzy 0-63. W przypadku 128-poziomowego urządzenia kwantującego, kody mają długość 7 bitów i zakres pomiędzy 0-127.

Kwantowanie odwrotne 131 jest realizowane po prostu przez odwzorowanie kodów poziomu z powrotem do określonej odwrotnej charakterystyki kwantowania dla zapewnienia wartości RMS_q lub PEAK_q Kwantowane współczynniki skalowania są stosowane zarówno w koderze jak i dekoderze dla skalowania próbek różnicowych z modulacją ADPCM lub APCM, jeżeli PMODE = O, zapewniając przez to, że zarówno procesy skalowania jak i odwrotnego skalowania są identyczne.

Jeżeli szybkość transmisji bitów kodów 64-poziomowych urządzeń kwantujących mą być zmniejszona, realizowana jest dodatkowa entropia lub kodowanie o zmiennej długości Kody 64-poziomowe podlegają najpierw kodowaniu różnicowemu 132 pierwszego rzędu w podpasmach j, przechodząc w drugim podpasmie (j=2) do najwyższego podpasma aktywnego. Proces może być także stosowany do kodowania współczynników skalowania PEAK. Oznaczone kody różnicowe DRMSq_L(j) lub DPEAKq_L(j) mają maksymalny zakres +/-6 3 i sąpamiętane w buforze 134. W celu zmniejszenia ich szybkości transmisji bitów w pierwotnych kodach 6-bitowych, kody różnicowe są odwzorowywane do liczby (p) 127-poziomowych książek kodów o zmiennej długości i środkowym elemencie wyniesionym nad wiersz. Każda książka kodów jest optymalizowana dla różnej wejściowej charakterystyki statystycznej.

Proces kodowania entropii oznaczonych kodów różnicowych jest taki sam, jak proces kodowania entropii dla stanów przejściowych przedstawionych na fig. 12, poza tym, że jest stosowanych p 127-poziomowych tabel kodów o zmiennej długości. Tabela, która zapewnia najmniejsze użycie bitów w procesie odwzorowania, jest wybierana przy zastosowaniu indeksu SHUFF. Odwzorowane kody VDRMSq_L(J) są wydzielane z tej tablicy, pakowane i transmitowane do dekodera wraz ze słowem indeksowym SHUFF. Dekoder, który utrzymuje ten sam zespół (p) 127-poziomowych tablic odwrotnych, stosuje indeks SHUFF do kierowania kodów wejściowych o zmiennej długości do właściwej tablicy dla dekodowania z powrotem do poziomów kodu różnicowego urządzenia kwantującego. Poziomy kodu różnicowego sąprzywracane do wartości bezwzględnych przy zastosowaniu następujących procedur:

RMSq_L(1) = drmSql(1)

RMSq_L(J) = DRMSq_L(J) + RMSql(J-1) dla j=2,... K i poziomy kodu różnicowego PEAK są przywracane do wartości bezwzględnych przy zastosowaniu następujących procedur:

PEAKq_L(1) = DPEAKql(1)

PEAKq_L(J) = DPEAKql(J) + PEAKQ_L(j-q) dla J=2,...K gdzie w obu przypadkach K = liczba podpasm aktywnych.

Przydział bitów globalnych następuje w systemie zarządzania 30 bitami globalnymi, pokazanym na fig. 10, który zarządza rozdziałem bitów ABIT, określa liczbę podpasm aktywnych SUB i strategię łącznej częstotliwości JOINX oraz strategię kwantowania wektorowego dla wielokanałowego kodera akustycznego w celu zapewniania subiektywnie przezroczystego kodowania przy zmniejszonej szybkości transmisji bitów; To powoduje zwiększenie liczby kanałów akustycznych i/lub czasu odtwarzania, który może być kodowany i pamiętany na stałym nośniku, przy utrzymaniu lub poprawie dokładności akustycznej. Ogólnie system zarządzania 30 najpierw przydziela bity każdemu podpasmu zgodnie z analizą psychoakustyczną modyfikowaną przez

183 498 wzmocnienie prognozowania kodera. Pozostałe bity są następnie przydzielane zgodnie ze schematem mmse dla obniżenia poziomu całkowitego szumu. W celu optymalizacji wydajności kodowania, system zarządzania 30 przydziela równocześnie bity we wszystkich kanałach akustycznych, wszystkich podpasmach i w całej ramce. Ponadto można zastosować strategię łącznego kodowania częstotliwościowego. W ten sposób system wykorzystuje nierównomierny rozdział energii sygnału pomiędzy kanały akustyczne, w zakresie częstotliwości i w czasie.

Podczas analizy psychoakustycznej pomiary psychoakustyczne są stosowane do określania wyczuwalnie niewłaściwej informacji w sygnale akustycznym. Wyczuwalnie niewłaściwa informacja jest określana jako te części sygnału akustycznego, które nie powinny być słyszane przez słuchaczy i mogąbyć mierzone w danym okresie czasu, zakresie częstotliwości lub w oparciu o inne dane

Dwa główne czynniki wplywająna pomiar psychoakustyczny. Jednym jest zależny od częstotliwości, bezwzględny poziom progowy słyszalności przez ludzi. Innym jest zjawisko maskowania polegające na zdolności człowieka słyszenia jednego dźwięku i drugiego dźwięku odtwarzanego równocześnie lub nawet po pierwszym dźwięku. Innymi słowy, pierwszy dźwięk zapobiega słyszeniu przez nas drugiego dźwięku i mówi się, że jest maskowany.

W koderze podpasma wynik końcowy obliczenia psychoakustycznego jest zespołem liczb, które określ^jiąmesłyszalny poziom szumu dla każdego podpasma w tej chwili. To obliczanie jest wprowadzone do standardu. Te liczby zmieniają się dynamicznie wraz z sygnałem akustycznym Koder usiłuj e regulować poziom szumu kwantowania w podpasmach przy pomocy procesu przydziału bitów, tak że szum kwantowania w tych podpasmach jest mniejszy niż poziom słyszalny

Dokładne obliczanie psychoakustyczne wymaga zwykle zastosowania rozdzielczości wielkiej częstotliwości przy przekształcaniu czasowo-częstotliwościowym. To daje duże okno analizy dla przekształcenia czasowo-częstotliwościowego. Standardowa wielkość okna analizy wynosi 1024 próbek, co odpowiada podramce skompresowanych danych akustycznych. Rozdzielczość częstotliwościowa o długości 1024 fft jest w przybliżeniu dopasowana do rozdzielczości czasowej ucha ludzkiego.

Wyjściem modelu psychoakustycznego jest stosunek sygnału do maski SMR dla każdego z 32 podpasm. SMR wskazuje wielkość szumu kwantowania, który może wytrzymać określone podpasmo, a więc wskazuje także liczbę bitów wymaganych do kwantowania próbek w podpasmie. Szczególnie, duże SMR (>>1) wskazuje, że jest wymagana duża liczba bitów i małe SMR (>0) wskazuje, że jest wymaganych mniej bitów. Jeżeli SMR<0, wówczas sygnał akustyczny jest usytuowany poniżej poziomu progowego maskowania szumu i żadne bity nie są wymagane do kwantowania.

Figura 14 pokazuje, że wytwarzane są stosunki sygnału do maski SMR dla każdej kolejnej ramki, ogólnie przez obliczenie fft, korzystnie o długości 1024, próbek akustycznych z modulacją kodowo-impulsową w celu wytwarzania sekwencji współczynników częstotliwości 142, zwinięcie współczynników z tonem zależnym od częstotliwości i psychoakustycznymi maskami 144 szumu dla każdego podpasma, uśrednienie uzyskanych współczynników w każdym podpasmie dla wytwarzania poziomów SMR i opcjonalnie normalizowanie SMR zgodnie z odpowiedzią słyszalności 146 przez człowieka, pokazana na fig. 15.

Czułość ucha ludzkiego jest maksymalna przy częstotliwościach bliskich 4 kHz i spada, gdy częstotliwość jest zwiększana lub zmniejszana. Zatem w celu odbioru na tym samym poziomie, sygnał 20 kHz musi być znacznie silniejszy niż sygnał 4 kHz. Tak więc zwykle SMR-y przy częstotliwościach bliskich 4 kHz są stosunkowo bardziej ważne niż przy częstotliwościach zewnętrznych. Jednak dokładny kształt krzywej zależy od średniej mocy sygnału dostarczanego do słuchacza. Wówczas gdy natężenie dźwięku wzrasta, odpowiedź słyszalności 146 podlega kompresji. Wobec tego system optymalizowany dla określonego natężenia dźwięku będzie podoptymalny przy innych natężeniach dźwięku. W wyniku tego albo jest wybierany nominalny poziom mocy dla normalizacji poziomów stosunków sygnału do maski SMR albo normalizacja jest uniemożliwiona.

183 498

Figura 16 pokazuje wynikowe stosunki sygnału do maski SMR 148 dla 32 podpasm

Procedura przydziału bitów polega na tym, że system zarządzania 30 najpierw wybiera właściwą strategię kodowania, której podpasma są kodowane z algorytmami kwantowania wektorowego i z modulacją ADPCM i czy JFC będzie włączane. Następnie system zarządzania 30 wybiera rozwiązanie przydziału bitów albo psychoakustyczne albo MMSE. Dla przykładu, przy dużych szybkościach transmisji bitów system może wyłączać modelowanie psychoakustyczne i stosować prawdziwy schemat przydziału mmse. To powoduje zmniejszenie złożoności obliczeniowej bez jakiejkolwiek wyczuwanej zmiany odtwarzanego sygnału akustycznego. Odwrotnie, przy małych szybkościach system może aktywować omawiany powyżej schemat kodowania łącznej częstotliwości dla poprawy dokładności odtwarzania przy mniej szych częstotliwościach. System zarządzania 30 przełącza się pomiędzy normalnym przydziałem psychoakustycznym i przydziałem mmse w oparciu o zawartość przejściową sygnału na podstawie kolejnych ramek Wówczas gdy zawartość przejściowąjestduża, założenie stacjonarności, które jest stosowane do obliczania SMR, me jest już prawdziwe, a więc schemat mmse zapewnia lepsze osiągnięcia

Przy przydziale psychoakustycznym, system zarządzania 30 najpierw przydzielą dostępne bity w celu realizacji zjawisk psychoakustycznych i następnie przydziela pozostałe bity niższemu poziomowi szumu całkowitego. Pierwszym etapem jest określanie SMR dla każdego podpasma dla bieżącej ramki, jak to opisano powyżej. Następnym etapem jest regulacja SMR dla wzmocnienia prognozowania wzmocnienie w poszczególnych podpasmach w celu wytwarzania stosunków maska do szumu MNR. Zasadąjest to, że koder z modulacją ADPCM będzie dostarczać część wymaganego SMR. W wyniku tego niesłyszalne poziomy szumu psychoakustycznego mogą być uzyskiwane przy mniejszej ilości bitów.

MNR dla j-tego podpasma, zakładając PMODE = 1, jest dane przez:

MNR (j) = SMR (j) - Pwzmocmeme (j) *PEF(ABIT) gdzie PEF(ABIT) jest współczynnikiem wydajności prognozowania urządzenia kwantującego. W celu obliczenia MNR(j), projektant musi mieć ocenę przydziału bitów (ABIT), która może być wytworzona albo przez przydzielenie bitów wyłącznie w oparciu o SMR(j) albo przez założenie, ze PEF(ABIT) = 1 Przy średnich do dużych szybkościach transmisji bitów, skuteczne wzmocnienie prognozowania jest w przybliżeniu równe obliczonemu wzmocnieniu prognozowania. Jednak przy małych szybkościach transmisji bitów, skuteczne wzmocnienie prognozowania jest zmniejszone Skuteczne wzmocnienie prognozowania, które jest uzyskiwane przy zastosowaniu na przykład 5-poziomowego urządzenia kwantującego, wynosi w przybliżeniu 0,7 ocenianego wzmocnienia prognozowania, podczas gdy 65-poziomowe urządzenie kwantujące umożliwia uzyskanie skutecznego wzmocnienia prognozowania w przybliżeniu równego ocenianemu wzmocnieniu prognozowania, PEF = 1,0. Przy wartości granicznej, gdy szybkość transmisji bitów wynosi zero, kodowanie z prognozowaniem jest zasadniczo uniemożliwione i skuteczne wzmocnienie prognozowania wynosi zero.

W następnym etapie system zarządzania 30 wytwarza schemat przydziału bitów, który realizuje MNR dla każdego podpasma. To jest dokonywane przy zastosowaniu przybliżenia, że 1 bit jest równy 6 dB zakłócenia sygnału. Dla zapewnienia tego, ze zakłócenie kodowania jest mniejsze niż słyszalny psychoakustycznie poziom progowy, przypisana szybkość transmisji bitów jest największą liczbą całkowitą MNR podzielonego przez 6 dB, co jest dane przez.

ABIT(j) = j]

Figura 17 pokazuje sygnał 157, przy czym przez przydział bitów poziom szumu 156wodtwarzanym sygnale ma tendencję do nadążania za samym sygnałem 157. Zatem przy częstotliwościach, przy których sygnał jest bardzo silny, poziom szumu będzie stosunkowo duży, lecz pozostanie niesłyszalny. Przy częstotliwościach, przy których sygnał jest stosunkowo słaby, poziom szumu będzie bardzo mały i niesłyszalny. Średni błąd związany z tego typu modelowaniem psychoakustycznym będzie zawsze większy niż poziom szumu mmse 158, lecz stopień słyszalności może być lepszy, szczególnie przy małych szybkościach transmisji bitów·.

183 498

W przypadku, w którym suma przydzielonych bitów dla każdego podpasma we wszystkich kanałach akustycznych jest większa lub mniejsza niż docelowa szybkość transmisji bitów, procedura zarządzania będzie iteracyjnie zmniejszać lub zwiększać przydział bitów dla poszczególnych podpasm. Odmiennie, docelowa szybkość transmisji bitów może być obliczona dla każdego kanału akustycznego. To jest podoptymalne, lecz prostsze, szczególnie w realizacji sprzętowej. Dla przykładu, dostępne bity mogą być rozłożone jednorodnie na kanały akustyczne lub mogą być rozdzielone proporcjonalnie do średniej SMR lub RMS każdego kanału.

W przypadku, w którym docelowa szybkość transmisji bitów jest przekroczona o sumę przydziałów bitów lokalnych, obejmujących bity kodu kwantowania wektorowego i informację wstęgi bocznej, procedura zarządzania bitami globalnymi będzie powodować stopniowe zmniejszanie przydziałów lokalnych bitów podpasma. Dostępna jest pewna liczba specyficznych technik zmniejszających średnią szybkość transmisji bitów'. Po pierwsze, szybkości transmisji bitów', które były zaokrąglone w górę przez funkcję największej liczby całkowitej, mogąbyć zaokrąglone w dół. Następnie jeden bit może być odprowadzony z podpasm mających najmniejsze MNR. Ponadto podpasma największej częstotliwości mogą być wyłączone lub może być uniemożliwione kodowanie łączne częstotliwościowo. Wszystkie strategie zmniejszania szybkości transmisji bitów nadążają za ogólną zasadą stopniowego zmniejszania rozdzielczości kodowania w sposób płynny, przy wyczuwalnie najmniej ofensywnej strategii Wprowadzanej najpierw i najbardziej ofensywnej strategu stosowanej ostatnio.

W przypadku, gdy docelowa szybkość transmisji bitów jest większa niż suma przydziałów bitów lokalnych, obejmujących bity kodu kwantowania wektorowego i informację wstęgi bocznej, procedura zarządzania bitami globalnymi będzie zwiększać postępowo i iteracyjnie przydziały bitów pasma lokalnego w celu zmniejszenia poziomu szumu całkowitego odtwarzanego sygnału. To może powodować kodowanie podpasm, którym poprzednio zostały przydzielone bity zerowe. Koszty ogólne transmisji bitów w podpasmach włączania mogą w ten sposób potrzebować odzwierciedlać koszt transmisji dowolnych współczynników prognozowania, jeżeli jest umożliwiony PMODE.

Procedura zarządzania zapewnia wybór spośród jednego z trzech różnych schematów przydzielania pozostałych bitów. Jedną opcjąjest zastosowanie rozwiązania mmse, które ponownie przydziela wszystkie bity, tak że uzyskany poziom szumu jest w przybliżeniu płaski To jest równoważne uniemożliwieniu początkowego modelowania psychoakustycznego.

Figura 18a pokazuje wykres 160 wartości RMS podpasm, który jest odwracany góra do dołu, w celu uzyskania poziomu szumu mmse, jak to pokazano na fig. 18b i jest stosowana technika “napełniania wodą”, aż zostaną wyczerpane wszystkie bity. Ta technika jest nazywana napełnianiem wodą, ponieważ poziom zakłócenia spadajednorodnie, gdy liczba przydzielonych bitów wzrasta. W pokazanym przykładzie pierwszy bitjest przypisany podpasmu 1, drugi i trzeci bity sąprzypisane podpasmom 1 i 2, czwarty do siódmego bity sąprzypisane podpasmom 1, 2, 4 17 i tak dalej. Odmiennie jeden bitjest przypisany każdemu podpasmu dla zapewnienia, że każde podpasmo będzie kodowane i następnie pozostałe napełnione wodą.

Drugą, korzystną opcjąjest przydzielenie pozostałych bitów zgodnie z rozwiązaniem mmse i wykresem RMS opisanymi powyżej. Skutkiem tej metody jest jednorodne obniżenie poziomu szumu 157 pokazanego na fig. 17, przy pozostawieniu kształtu związanego z maskowaniem psychoakustycznym. To zapewnia dobry kompromis pomiędzy zakłóceniem psychoakustycznym i mse

Trzecimi rozwiązaniem jest przydzielenie pozostałych bitów przy zastosowaniu rozwiązania mmse, jak zastosowane do wykresu różnicy pomiędzy wartościami RMS i MNR dla podpasm. Skutkiem tego rozwiązania jest łagodne przejście kształtu poziomu szumu od optymalnego kształtu psychoakustycznego 157 do optymalnego płaskiego kształtu mmse 158, gdy szybkość transmisji bitów wzrasta. W dowolnym z tych schematów, jeżeli błąd kodowania w dowolnym podpasmie spada poniżej 0,5 bitu mniej znaczącego, względem źródła z modulacją kodowo-impulsową, wówczas więcej bitów nie jest przydzielanych temu podpasmu. Opcjonalnie mogąbyć zastosowane stałe wartości maksymalne przydziałów bitów podpasma do ograniczania maksymalnej liczby bitów przydzielanych poszczególnym podpasmom.

183 498

W systemie kodowania omawianym powyżej założyliśmy, że średnia szybkość transmisji bitów na próbkę jest stała i wytworzyliśmy przydział bitów dla maksymalizacji dokładności odtwarzanego sygnału akustycznego. Odmiennie, poziom zakłócenia, mse lub percepcyjny, może być ustalony i dopuszczona zmiana szybkości transmisji bitów dla uzyskania zadawalającego poziomu zakłócenia. W rozwiązaniu mmse wykres RMS jest po prostu napełniany wodą, aż do uzyskania zadawalającego poziomu zakłócenia. Wymagana szybkość transmisji bitów zmieni się w oparciu o poziomy RMS podpasm. W rozwiązaniu psychoakustycznym bity są przydzielane dla uzyskania zadawalających MNR. W wyniku tego szybkość transmisji bitów zmieni się w oparciu o poszczególne SMR i wzmocnienia prognozowania. Ten typ przydziału nie jest obecnie użyteczny, ponieważ współczesne dekodery działają ze stałą szybkością. Jednak odmienne systemy dostarczania danych, takie jak ATM lub nośniki danych o dostępie bezpośrednim, mogą uczynić kodowanie o zmiennej szybkości praktycznym w bliskiej przyszłości.

Kwantowanie indeksów przydziału bitów ABIT polega na tym, że indeksy przydziału bitów ABIT są wytwarzane dla każdego podpasma i każdego kanału akustycznego w adaptacyjnej procedurze przydziału bitów w procesie zarządzania bitami globalnymi. Celem indeksów w koderze jest wskazanie liczby poziomów 162 pokazanych na fig. 10, które są potrzebne do kwantowania sygnału różnicowego w celu uzyskania subiektywnie optymalnego poziomu szumu odtwarzania w sygnale akustycznym dekodera. W dekoderze wskazują one liczbę poziomów potrzebną do kwantowania odwrotnego. Indeksy są wytwarzane dla każdego bufora analizującego i ich wartości mogą być w zakresie od 0 do 27. Związek pomiędzy wartością indeksu, liczbąpoziomów urządzenia kwantującego i przybliżonym, uzyskanym podpasmem różnicowym SNqR jest pokazany w tablicy 3. Ze względu na to, że sygnał różnicowy jest normalizowany, wielkość stopniowa 164 jest nastawiana na równą jedności.

Tabela 3

Indeks ABIT	# z poziomów Q	Długość kodu (bity)	SNQR(dB)
1	2	3	4
0	0	0	-
1	3	zmienna	8
2	5	zmienna	12
3	7 (lub 8)	zmienna (lub 3)	16
4	9	zmienna	19
5	13	zmienna	21
6	17 (lub 16)	zmienna (lub 4)	24
7	25	zmienna	27
8	33 (lub 32)	zmienna (lub 5)	30
9	65 (lub 64)	zmienna (lub 6)	36
10	129 (lub 128)	zmienna (lub 7)	42
11	256	8	48
12	512	9	54
13	1024	10	60
14	2048	11	66
15	4096	12	72
16	8192	13	78

183 498

c.d tabeli 3

1	2	3	4
17	16384	14	84
18	32768	15	90
19	65536	16	96
20	131072	17	102
21	262144	18	108
22	524268	19	114
23	1048576	20	120
24	2097152	21	126
25	4194304	22	132
26	8388608	23	138
27	16777216	24	144

indeksy przydziału bitów ABIT są albo transmitowane do dekodera bezpośrednio, stosując 4-bitowe słowa kodu liczb całkowitych bez znaku, 5-bitowe słowa kodu liczb całkowitych bez znaku lub stosując 12-poziomową tablicę entropii. Zwykłe kodowanie entropii byłoby wykorzystywane dla programów użyytkowyc.h o małej szybkości transmisji bitów w celu utrzymania bitów Sposób kodowania ABIT jest nastawiany przez sterowanie trybem pracy w koderze i jest przekazywany do dekodera Koder entropii odwzorowuje 166 indeksy ABIT w o kieślonej książce kodów zidentyfikowanej przez indeks BHUFF i specyficzny kod VAB1T w książce kodów, stosując proces pokazany na fig. 12 przez 12-poziomowe tablice AB1T

Przy sterowaniu szybkością transmisji bitów globalnych, ze względu na to, ze zarówno informacja wstęgi bocznej, jak i próbki podpasma różnicowego mogą być opcjonalnie kodowane przy zastosowaniu książek kodów o zmiennej długości entropii, należy zastosować pewien mechanizm regulacji wynikowej szybkości transmisji bitów kodera, gdy skompresowany strumień bitów ma być transmitowany ze stałą szybkością. Ze względu na to, że nie jest normalnie pożądane modyfikowanie informacji wstęgi bocznej po obliczeniu, regulacje szybkości transmisji bitów są najlepiej osiągane przez iterącyjną zmianę procesu kwantowania próbek podpasma różnicowego w koderze z modulacją ADPCM, aż zostanie osiągnięte ograniczenie szybkości.

W opisanym systemie, system sterowania 178 szybkością całkowitą na fig. 10 reguluje szybkość transmisji bitów, która wynika z procesu odwzorowania kodów poziomu urządzenia kwantującego w tablicy entropii, przez zmianę rozkładu statystycznego wartości kodu poziomów Zakłada się, że wszystkie tablice entropii mają podobną tendencję do większych długości kodów dla większych wartości kodu poziomów. W tym przypadku średnia szybkość transmisji bitów jest zmniejszona, gdy prawdopodobieństwo poziomów kodu o małych wartościach wzrasta i odwrotnie W procesie kwantowania z modulacją ADPCM lub APCM, wielkość współczynnika skalowania określa rozkład lub użycie wartości kodu poziomów. Dla przykładu, gdy wielkość współczynnika skalowania wzrasta, próbki różnicowe będą dążyły do podlegania kwantowaniu przez mniejsze poziomy i dlatego wartości kodu staną się stopniowo mniejsze To z kolei będzie powodować mniejsze długości słowa kodu i mniejsze szybkości transmisji bitów

Przez zwiększenie wielkości współczynnika skalowania, szum odtwarzania w próbkach podpasma jest także zwiększany w tym samym stopniu. Jednak w praktyce regulacja współczynników skalowania normalnie nie jest większa niż 1 dB do 3 dB. Jeżeli jest wymagana większa regulacja, byłoby lepiej powrócić do rozdziału bitów i zmniejszenia całkowitego rozdziału bitów zamiast ryzyka możliwości słyszalnego szumu kwantowania występującego w podpasmach, które stosowałyby nieścisły współczynnik skalowania.

183 498

W celu regulacji rozdziału bitów z modulacją ADPCM kodowanego entropią, próbki historii prognozowania dla każdego podpasma są pamiętane w buforze tymczasowym w przypadku, gdy cykl kodowania z modulacja ADPCM jest powtarzany Następnie bufory próbkowania podpasma są wszystkie kodowane w pełnym procesie z modulacja ADPCM, przy zastosowaniu współczynników prognozowania Ah otrzymywanych z analizy LPC podpasma wraz ze współczynnikami skalowania RMS lub PEAK, przydziałami bitów ABIT urządzenia kwantującego, stanami przejściowymi TMODE i stanami prognozowania PMODE, uzyskiwanymi z ocenianego sygnału różnicowego. Wynikowe kody poziomów urządzenia kwantującego sąbuforowane i odwzorowywane do książki kodów z entropią o zmiennej długości, która wykazuje najmniejsze użycie bitów··, stosując ponownie indeks przydziału bitów do określania wielkości książki kodów

System sterowania 178 analizuje następnie liczbę bitów stosowanych dla każdego podpasma, stosując ten sam indeks przydziału bitów we wszystkich indeksach. Dla przykładu, gdy ABIT=1, obliczanie przydziału bitów w zarządzaniu bitami globalnymi mogłoby mieć założoną średnia szybkość 1,4 na próbkę podpasma (to jest średnia szybkość dla książki kodów entropii zakłada optymalny rozkład amplitudy kodów poziomów). Jeżeli użycie bitów całkowitych wszystkich podpasm, dla których ABIT=1, jest większe niż 1,4/(całkowita liczba próbek podpasma), wtedy współczynniki skalowania mogłyby być zwiększone we wszystkich tych podpasmach dla spowodowania zmniejszenia szybkości transmisji bitów. Decyzja regulacji współczynników skalowania podpasma jest korzystnie pozostawiona, aż wszystkie szybkości indeksu ABIT zostaną udostępnione. W wyniku tego indeksy przy szybkościach transmisji bitów mniejszych niż założone w procesie przydziału bitów, mogą kompensować występujące przy szybkościach transmisji bitów powyżej tego poziomu. Ta ocena może być także rozciągnięta na pokrycie wszystkich kanałów akustycznych, jeżeli jest to właściwe.

Zalecana procedura zmniejszania całkowitej szybkości transmisji bitów ma być rozpoczynana przy najmniejszej szybkości transmisji bitów indeksu ABIT, która przekracza poziom progowy i zwiększać współczynniki skalowania w każdym z podpasm, które mają ten przydział bitów·'. Rzeczywiste użycie bitów jest zmniejszone o liczbę bitów, którymi te pasma były pierwotnie przy nominalnej szybkości dla tego przydziału. Jeżeli modyfikowane użycie bitów jest nadal w nadmiarze względem maksymalnego dopuszczonego, wtedy współczynniki skalowania podpasma dla następnego największego indeksu ABIT, dla którego użycie bitów przekracza nominalne, sązwiększone Ten proces jest kontynuowany, aż modyfikowane użycie bitów jest poniżej maksymalnego.

Po osiągnięciu tego, dane starej historii są wprowadzane do urządzeń prognozujących i proces kodowania z modulacją ADPCM 72 jest powtarzany dla tych podpasm, które majązmodyfikowane współczynniki skalowania. Po tym kody poziomów są ponownie odwzorowywane do najbardziej optymalnych książek kodów entropii i użycie bitów jest ponownie obliczane. Jeżeli dowolne użycie bitów nadal przekraczało nominalne szybkości, wówczas współczynniki skalowania są dalej zwiększane i cykl jest powtarzany.

Modyfikacja współczynników skalowania może być dokonana na dwa sposoby. Pierwszym jest transmisja do dekodera współczynnika regulacji dla każdego indeksu ABIT. Dla przykładu słowo 2-bitowe mogłoby sygnalizować zakres regulacji powiedzmy 0, 12 i 3 dB Ponieważ ten sam współczynnik regulacji jest stosowany dla wszystkich podpasm, które stosująindeks ABIT i tylko indeksy 1-10 mogą stosować kodowanie entropii, maksymalna liczba współczynników regulacji, która musi być transmitowana dla wszystkich podpasm, wynosi 10. Alternatywnie, współczynnik skalowania może być zmieniany w każdym podpasmie przez wybór wysokiego poziomu kwantowania. Jednak ponieważ urządzenia kwantujące współczynniki skalowania mają wielkości stopniowe odpowiednio 1,25 12/5 dB, regulacja współczynnika skalowania jest ograniczona do tych etapów. Ponadto przy zastosowaniu tej techniki, kodowanie różnicowe współczynników skalowania i wynikowe użycie bitów może wymagać ponownego obliczenia, jeżeli kodowanie entropii jest umożliwione.

Ta sama procedura może być zastosowana także do zwiększania szybkości transmisji bitów, to jest gdy szybkość transmisji bitów jest mniejsza niż wymagana szybkość transmisji bitów.

183 498

W tym przypadku współczynniki skalowania byłyby zmniejszone dla spowodowania, żeby próbki różnicowe zrobiły większy użytek z zewnętrznych poziomów urządzenia kwantującego, a więc użycia dłuższych słów kodu w tablicy entropii.

Jeżeli użycie bitów dla indeksów przydziału bitów nie może być zmniejszone w zakresie dopuszczalnej liczby iteracji lub w przypadku, gdy są transmitowane współczynniki regulacji współczynnika skalowania, liczba etapów regulacji osiąga wartość graniczną, wtedy sąmożliwe dwie naprawy. Po pierwsze, współczynniki skalowania podpasm, które są w zakresie szybkości nominalnej, mogą być zwiększone, skutkiem czego zmniejsza się całkowita szybkość transmisji bitów. Alternatywnie, cały proces kodowania z modulacją ADPCM może być przerwany i adaptacyjne przydziały bitów w podpasmach ponownie obliczone, tym razem stosując mniej bitów-·.

Multiplekser 32 pokazany na fig 10 upakowuje dane dla każdego kanału i następnie multipleksuje upakowane dane dla każdego kanału w ramkę wyjściową w celu utworzenia strumienia danych 16.

Figura 19 pokazuje metodę upakowywania i multipleksowania danych, to jest formatu ramki 186 wyznaczonej tak, że koder akustyczny jest stosowany w szerokim zakresie programów użytkowych i rozszerzany do wyższych częstotliwości próbkowania, a liczba danych w każdej ramce jest ograniczana, odtwarzanie może być początkowano w każdej pod-podramce niezależnie dla zmniejszenia czasu oczekiwania i błędy dekodowania są zmniejszane.

Pojedyncza ramka 186,4096 próbek z modulacJąkodowo-impulsową/kanał określa granice strumienia bitów, w których wystarczająca informacja służy do właściwego dekodowania bloku akustycznego i składa się z 4 podramek 188,1024 próbek z moduli^iyiąkodowo-impulsową/kanał, które z kolei sąwykonane każda z 4 pod-podramek 190,256 próbek z modulacJąkodowo-impulsową/kanał. Słowo synchronizacji 192 ramki jest umieszczone na początku każdej ramki akustycznej. Informacja 194 nagłówka ramki daje przede wszystkim informację dotyczącą konstrukcji ramki 186, konfiguracji kodera, który wytworzył strumień i różnych opcjonalnych cech operacyjnych, takich jak wprowadzone sterowanie zakresem dynamicznym i kod czasowy. Opcjonalna informacja 196 nagłówka mówi dekoderowi, czy jest wymagane mieszanie do dołu, czy została zrealizowana kompensacja zakresu dynamicznego i czy pomocnicze bajty danych są wprowadzone do strumienia danych. Nagłówki 198 kodowania akustycznego wskazująuporządkowanie upakowania i formaty kodowania stosowane w koderze dla asemblowania informacji wstęgi bocznej kodowania, to jest przydziału bitów, współczynników skalowania, PMODE, TMODE, książek kodów itd. Pozostała część ramki jest wykonana z kolejnych podramek akustycznych SUBF 188

Układ akustyczny 206jest dekodowany przy zastosowaniu urządzenia kwantującego Huffmana, stałego odwrotnego i jest dzielony na pewną liczbę pod-podramek SSC, każdą dekodującą do 256 próbek z modulacją kodowo-impulsową na kanał akustyczny. Nadmiernie próbkowany układ akustyczny 208 występuje tylko, gdy częstotliwość próbkowaniajest większa niż 48 kHz. Aby pozostać zgodnymi, dekodery, które nie mogą działać z szybkościami próbkowania powyżej 48 kHz, powinny przeskakiwać ten układ danych akustycznych. DSYNC 210 jest stosowane do sprawdzania końca położenia podramki w ramce akustycznej. Jeżeli położenie nie sprawdza się, sygnał akustyczny dekodowany w podramce jest określany jako niepewny. W wyniku tego, albo ta ramka jest blokowana szumowo albo poprzednia ramka jest powtarzana.

Figura 20 przedstawia schemat blokowy dekodera 18 próbkowania podpasma Dekoder jest całkiem prosty w porównaniu z koderem i nie przeprowadza obliczeń, które maja podstawowe znaczenie dla jakości odtwarzanego sygnału akustycznego, takiego jak przydziały bitów Po synchronizacji układ rozpakowania 40 rozpakowuje skompresowany strumień danych akustycznych 16, wykrywa i w razie potrzeby koryguje błędy powodowane transmisją oraz demultipleksuje dane do poszczególnych kanałów akustycznych. Sygnały różnicowe podpasma sąponownie kwantowane do sygnałów z modulacją kodowo-impulsową i każdy kanał akustyczny jest filtrowany odwrotnie dla przemiany sygnału z powrotem do strefy czasu.

W przypadku ramki akustycznej odbioru i nagłówków rozpakowania, strumień danych kodowanych jest pakowany lub ramkowany w koderze i zawiera w każdej ramce dane dodatkowe

183 498 do synchronizacji dekodera, detekcji błędu i korekcji, kodowania akustycznego znaczników stanu i kodowania informacji wstęgi bocznej, poza samymi rzeczywistymi kodami akustycznymi. Układ rozpakowania 40 wykrywa słowo SYNC i wydziela wielkość ramki FSIZE. Strumień bitów kodowanych składa się z kolejnych ramek akustycznych, z których każda rozpoczyna się 32-bitowym 0x7ffe8001 słowem synchronizacji SYNC. Wielkość fizyczna ramki akustycznej FSIZE jest wydzielana z bajtów następujących po słowie synchronizacji. To umożliwia programatorowi nastawienie zegara wielkości zasobów komputera. Następnie jest wydzielane NBIks, co umożliwia dekoderowi obliczenie wielkości okna akustycznego 32(Nblks+l). To mówi dekoderowi, którą informację wstęgi bocznej wydzielać i jak dużo wytwarzać odtworzonych próbek.

Zaraz po otrzymaniu bajtów nagłówka ramki: sync, ftype, surp, nbiks, fsize, amode, sfreq, ratę, mixt, dynf, dynct, time, auxcnt, Iff, hflag, ważność pierwszych 12 bajtów można sprawdzić przy zastosowaniu bajtów kontrolnych Reeda Solomona, HCRC Skorygują one 1 błędny bajt spośród 14 bajtów lub 2 błędnych bajtów znacznika. Po zakończeniu kontroli błędu, informacja nagłówka jest stosowana do aktualizacji znaczników dekodera.

Nagłówki: filts, vernum, chist, pcmr, unspec po HCRC i do informacji opcjonalnej mogą być wydzielone i zastosowane do aktualizacji znaczników dekodera. Ponieważ ta informacja nie zmienia się dla różnych ramek, większość schematu głosowania może być stosowana do kompensacji błędów bitów. Opcjonalne dane nagłówka: times, mcoeff, dcoeff, auxd, ocrc są wydzielane zgodnie z nagłówkami mixct, dynf, time i auxcnt. Dane opcjonalne mogą być sprawdzane przy zastosowaniu opcjonalnych bajtów kontroli Reeda Solomona OCRC.

Nagłówki ramek kodowania akustycznego: subfs, subs, chs, vqsub, joinx, thuff, shuff, bhuff, se15, se17, se19, se112, se113, sel17, se125, se133, se165, se1129, ahcrc są transmitowane jeden raz w każdej ramce Mogą być sprawdzone przy zastosowaniu bajtów kontrolnych akustycznych Reeda Solomona AHCRC. Większość nagłówków jest powtarzanych dla każdego kanału akustycznego, jak określony przez CHS.

W przypadku informacji wstęgi bocznej kodowania podramki rozpakowania, ramka kodowania akustycznego jest podzielona na pewną liczbę podramek SUBFS. Cała potrzebna informacja wstęgi bocznej pmode, pvq, tmode, scales, abits, hfreq jest wprowadzona dla właściwego dekodowania każdej podramki akustycznej bez odniesienia do dowolnej innej podramki. Każda kolejna podramkajest dekodowana przez pierwsze rozpakowanie jej informacji wstęgi bocznej

1-bitowy znacznik stanu prognozowania PMODE jest transmitowany do każdego podpasma aktywnego i w całym kanale akustycznym. Znaczniki stanu PMODE są ważne dla bieżącej podramki. PMODE=0 powoduje, że współczynniki prognozowania nie są wprowadzone do ramki akustycznej dla tego podpasma. W tym przypadku współczynniki prognozowania w tym paśmie są przestawiane na zero przez czas trwania podramki. PMODE=1 powoduje, że informacja wstęgi bocznej zawiera współczynniki prognozowania dla tego podpasma. W tym przypadku współczynniki prognozowania są wydzielane i instalowane w urządzeniu prognozującym przez czas trwania podramki.

Dla każdego PMODE=1 w układzie pmode, odpowiedni indeks adresu kwantowania wektorowego współczynnika prognozowaniajest usytuowany w układzie PVQ. Indeksy są stałymi, 12-bitowymi słowami liczb całkowitych bez znaku i 4 współczynniki prognozowania są wydzielane z tablicy przeglądowej przez odwzorowanie 12-bitowej liczby całkowitej w tablicę 266 wektorów.

Indeksy przydziału bitów ABIT wskazują liczbę poziomów w odwrotnym urządzeniu kwantującym, które przetworzy kody akustyczne podpasma z powrotem w wartości bezwzględne. Format rozpakowania różni się dla ABIT w każdym kanale akustycznym, w zależności od indeksu BHUFF i specyficznego kodu VABIT 256.

Informacja wstęgi bocznej TMODE 238 stanu przejściowego jest stosowana do wskazania położenia stanów przejściowych w każdym podpasmie względem podramki. Każda podramka jest dzielona na 1 do 4 pod-podramki. W terminach próbek podpasma każda pod-podramka składa się z 8 próbek. Maksymalna wielkość podramki wynosi 32 próbek podpasma. Jeżeli stan przejściowy występuje w pierwszej pod-podramce, wówczas tmode=0. Stan przejściowy w drugiej pod-podramce jest wskazany, gdy tmode=1 i tak dalej. W celu sterowania zakłóceniem

183 498 przejściowym, takim jak echo wstępne, dwa współczynniki skalowania są transmitowane dla podpasm podramki, gdzie TMODE jest większe niż 0. Indeksy THUFF, wydzielane z nagłówków akustycznych, określają metodę wymaganą do dekodowania TMODE. Wówczas, gdy THUFF=3, TMODE są rozpakowywane jako 2-bitowe liczby całkowite bez znaku.

Indeksy współczynników skalowania sątransmitowane dla umożliwienia właściwego skalowania kodów akustycznych podpasma w każdej podramce. Jeżeli TMODE jest równe zeru, wówczas transmitowany jest jeden współczynnik skalowania. Jeżeli TMODE jest większe niż zero dla dowolnego podpasma, wówczas transmitowane są razem dwa współczynniki skalowania. Indeksy SHUFF 240, wydzielane z nagłówków akustycznych, określają metodę wymaganą do dekodowania SCALES dla każdego oddzielnego kanału akustycznego. Indeksy vDrMSql określają wartość współczynnika skalowania RMS.

W pewnych stanach indeksy SCALES sąrozpakowywane przy zastosowaniu wyboru pięciu 129-poziomowych, oznaczonych, odwrotnych urządzeń kwantujących Huffmana. Wynikowe, odwrotne, kwantowane indeksy są jednak kodowane różnicowo i są przetwarzane w bezwzględne jak następuje

ABS_SĆALE(n+1)=SĆALES(n)-SĆALES(n+1)/ gdzie n jest n-tym współczynnikiem skalowania różnicowego w kanale akustycznym, rozpoczynając od pierwszego podpasma

Przy stanach kodowania akustycznego o małej szybkości transmisji bitów, koder akustyczny stosuje kwantowanie wektorowe dla skutecznego kodowania bezpośrednio próbek akustycznych podpasma wielkiej częstotliwości. Nie jest stosowane żadne kodowanie różnicowe w tych podpasmach i wszystkie układy dotyczące normalnych procesów z modulacją ADPCM muszą być utrzymywane w stanie przestawienia. Pierwsze podpasmo, które jest kodowane przy zastosowaniu kwantowania wektorowego, jest wskazane przez VQSUB i wszystkie podpasma do SUBS są również kodowane w ten sposób.

Indeksy wielkiej częstotliwości HFREQ sąrozpakowywane 248 jako stałe, 10-bitowe liczby całkowite bez znaku. 32 próbki wymagane dla każdej podramki podpasma są wydzielane z ułamkowego dziesiętnego LUT Q4 przez dostarczenie właściwych indeksów·'. To jest powtarzane dla każdego kanału, w którym stan kwantowania wektorowego wielkiej częstotliwości jest aktywny.

Współczynnik działania dziesiętnego dla kanału efektów jest zawsze X128. Liczba 8-bitowych próbek efektów, występujących w LFE, jest dana przez SSC*2, gdy PSC=0 lub (SSC+1)*2, gdy PSC me jest zero. Dodatkowy, 7-bitowy współczynnik skalowania liczby całkowitej bez znaku, jest także wprowadzony na końcu układu LFE i to jest przetwarzane do rms przy zastosowaniu 7-bitowego LUT.

Przy rozpakowywaniu układu kodów akustycznych pod-podramki, proces wydzielania dla kodów akustycznych podpasmajest zasilany przez indeksy ABIT i w przypadku, gdy ABIT<11, indeksy SEL także. Kody akustyczne są formatowane albo przy użyciu kodów Huffmana o zmiennej długości lub stałych kodów liniowych. Ogólnie indeksy ABIT spośród 10 lub mniej będą dawały kody Huffmana o zmiennej długości, które są wybrane przez kody VQL(n) 258, podczas gdy ABIT powyżej 10 zawsze znaczą kody stałe. Wszystkie urządzenia kwantujące mająjednorodną charakterystykę środkową. Dla urządzeń kwantujących o stałym kodzie Y²-nąjbardziej ujemny poziomjest obniżony/. Kody akustyczne są upakowywane w pod-podramki, z których każda reprezentuje maksymalnie 8-podpasmowe próbki i te pod-podramki są powtarzane do czterech razy w bieżącej podramce.

Jeżeli znacznik szybkości próbkowania SFREQ wskazuje szybkość większą niż 48 kHz, wówczas układ danych over_audio będzie występował w ramce akustycznej. Dwa pierwsze bajty w tym układzie będą wskazywać wielkość bajtu over_audio. Ponadto szybkość próbkowania urządzenia dekoderowego powinna być nastawiona na działanie przy SFREQ/2 lub SFREQ/4, zależnie od szybkości próbkowania o wielkiej częstotliwości.

Przy kontroli synchronizacji rozpakowania, słowo kontroli synchronizacji rozpakowania danych DSYN C=0xfff jest wykrywane na końcu każdej podramki dla umożliwienia kontroli całości rozpakowania. Zastosowanie zmiennych słów kodu w informacji wstęgi bocznej i kodów

183 498 akustycznych, jak w przypadku małych szybkości bitów akustycznych, może prowadzić do złego rozmieszczenia rozpakowania, jeżeli zarówno nagłówki, informacja wstęgi bocznej, jak i układy akustyczne zostały uszkodzone przez błędy bitów. Jeżeli wskaźnik rozpakowania nie wskazuje początku DSYN, wówczas można założyć, że poprzedni sygnał akustyczny podramki jest niepewny

Po rozpakowaniu całej informacji wstęgi bocznej i danych akustycznych, dekoder odtwarza wielokanałowy sygnał akustyczny jedna podramka w danym czasie fig. 20 przedstawia część dekodera pasma podstawowego dla pojedynczego podpasma w pojedynczym kanale.

Przy odtwarzaniu współczynników skalowania RMS, dekoder odtwarza współczynniki skalowania RMS SCALES dla algorytmów z modulacją ADPCM, VQ i JPC. W szczególności indeksy VTMODE i THUFF są odwzorowywane odwrotnie w celu identyfikacji stanu przejściowego TMODE dla bieżącej podramki. Następnie indeks SHUFF, kody i TMODE są odwzorowywane odwrotnie dla odtwarzania kodu różnicowego RMS. Kod różnicowy RMS jest kodowany odwrotnie różnicowe 242 dla wybrania kodu RMS, któryjest następnie kodowany odwrotnie 244 w celu wytwarzania współczynnika skalowania RMS.

Przy kwantowaniu odwrotnym wektorów wielkiej częstotliwości, dekoder kwantuje odwrotnie wektory wielkiej częstotliwości dla odtwarzania sygnałów akustycznych podpasma W szczególności wydzielane próbki wielkiej częstotliwości HFREQ, które są oznaczoną, 8-bitową, ułamkową liczbą dwójkową Q4, identyfikowane przez początkowe podpasmo kwantowania wektorowego VQSUBS, są odwzorowywane do odwrotnego kwantowanego wektorowo lut 248. Wybrana wartość tablicy jest kwantowana odwrotnie 250 i skalowana 252 przez współczynnik skalowania RMS.

Przy kwantowaniu odwrotnym kodów akustycznych, przed wprowadzeniem do pętli z modulacją ADPCM, kody akustyczne są kwantowane odwrotnie i skalowane dla wytwarzania odtwarzanych próbek różnicowych podpasma. Kwantowanie odwrotne jest osiągane najpierw przez odwrotne odwzorowanie indeksu VABIT i BHUFF dla określenia indeksu ABIT, który określa wielkość stopniową i liczbę poziomów kwantowania, oraz odwzorowanie odwrotne indeksu SEL i kodów akustycznych VQL(n), które wytwarzają kody QL(n) poziomów kwantowania. Następnie słowa kodów QL(n) są odwzorowywane do odwrotnej tablicy przeglądowej 260 urządzenia kwantującego, określonej przez indeksy ABIT i SEL. Chociaż kody są uporządkowane przez ABIT, każdy oddzielny kanał akustyczny będzie miał oddzielny specyfikator SEL Proces przeglądania daje oznaczoną liczbę poziomów kwantowania, która może być przetworzona w jednostkowe rms w wyniku pomnożenia przez wielkość stopniową kwantowania. Wartości jednostkowych rms są następnie przetwarzane w pełne próbki różnicowe w wyniku pomnożenia przez wyznaczony współczynnik skalowania RMS SCALES 262.

1. QL[n] = 1/Q [code[nj], gdzie 1/Q jest odwrotną tablicą przeglądania urządzenia kwantującego

2. Y[n] = QL[n] * Wielkość stopniowa [abits]

3. Rd[n] = Y[n] * scalefactor, gdzie Rd = odtwarzane próbki różnicowe

Przy odwrotnej modulacji ADPCM, proces dekodowania z modulacją ADPCM jest wykonywany dla każdej próbki różnicowej podpąsma jak następuje:

1. Wprowadzanie współczynników prognozowania z odwrotnego kwantowanego wektorowo lut 268.

Wytwarzania paóbki prognozowania pazea splot bleżących współczyninków prognozowania z poprzednimi 4 odtworzonymi próbkami oodoąsmą utrzymywanymi w układzie 268 historii prognozowania.

P[n] = suma (Współ[i]*R[n-i]) dla i = 1, 4 gdzie n = okres bieżącej próbki

3. Dodawania ^0^ ζ^^ιιozawaola wo odłworzopej zróbki ró0glcowej <^łw wytwarzania odtwarzanej próbki 270 oadoosmo.

R[n] = Rd[n] + P[n]

183 498

4. Aktualizacjahiatoan prognorowania, tajest kopii biożącei, żdtwaodanea paóbki póbpąsma, do góry listy historii.

R[n-i] = R[n-i+1] dla I = 4,1

W przypadku, gdy PMODE=0/ współczynniki prognozowania będą zero, próbka prognozowania zero i odtwarzana próbka podpasmajestrówna próbce oodoαsma różnicowego. Chociaż w tym przypadku obliczanie prognozowania jest niepotrzebne, jest istotne, żeby historia prognozowania była utrzymywana aktualizowana w przypadku, gdy PMODE powinno stać się aktywne w przyszłych podramkach. Ponadto, jeżeli HFLAG jest aktywne w bieżącej podramce akustycznej, historia prognozowania powinna być wyjaśniona przed dekodowaniem najpierwszej pod-padramki w ramce. Historia powinna być aktualizowana zwykle od tego wskazania.

W przypadku podpasm z kwantowaniem wektorowo wielkiej częstotliwości lub gdy jest znoszony wybór podpasm, to jest powyżej granicy SUBS, historia prognozowania powinna pozostać wyjaśniona aż do czasu, w którym prognozowanie podpasma staje się aktywne.

Przy sterowaniu wyborem z modulacją ADPCM, V0 i dekodowania JFC, pierwszy przełącznik steruje wyborem wyjścia albo z modulacją ADPCM albo kwantowaniem wektorowym. Indeks VQSUBS identyfikuje początkowe oodpasmo dla kodowania wektorowego. Zatem, jeżeli bieżące padpasmajest mniejsze niż VQSUBS, przełącznik wybiera wyjście z modulacją ADPCM. Inaczej, wybiera on wyjście kwantowania wektorowego. Drugi “przełącznik” 278 steruje wyborem albo bezpośredniego wyjścia kanału albo wyjściem kodowania JFC. Indeks JOINX identyfikuje, które kanały są połączone i w którym kanale jest wytwarzany odtwarzany sygnał. Odtwarzany sygnał JFC tworzy źródło natężenia dla wejść JFC w innych kanałach. Zatem, jeżeli bieżące oadpasmo j est częścią JF C i nie j est wyznaczonym kanałem, wówczas przełącznik wybiera wyjście JFC. Normalnie przełącznik wybiera wyjście kanału.

Przy tworzeniu macierzy do dołu, stan kodowania akustycznego dla strumienia danychjest wskazany przez AMODE. Dekodowane kanały akustyczne mogąbyć następnie ponownie kierowane do dopasowania fizycznego, wyjściowego układu kanałów w układzie dekoderowym 280

Dla danych sterowania zakresem dynamicznym, współczynniki DCOEFF zakresu dynamicznego są opcjonalnie wprowadzone do ramki akustycznej w etapie kodowania 282. Celem tej cechy jest umożliwienie dogodnej kompresji dynamicznego zakresu akustycznego na wyjściu dekodera. Kompresja zakresu dynamicznego jest szczególnie ważna przy słuchaniu w otoczeniu, gdzie wysokie poziomy szumu otaczającego uniemożliwiają odróżnienie sygnałów o niskim poziomie bez niebezpieczeństwa uszkodzenia głośników podczas głośnych przejść. Ten problem jest ponadto złożony w wyniku wzrastającego użycia 20-bitowych zapisów akustycznych z modulacją kodowo-impulsową, które mają zakresy dynamiczne tak wysokie jak 110 dB.

W zależności od wielkości okna ramki NBLKS albo jeden, dwa albo cztery współczynniki są transmitowane na kanał akustyczny dla dowolnego stanu kodowania DYNF. Jeżeli jest transmitowany pojedynczy współczynnik, jest to stosowane do całej ramki Przy dwóch współczynnikach pierwszy jest stosowany do pierwszej połowy ramki i drugi do drugiej połowy ramki. Cztery współczynniki sąTOzłozone w każdej ćwiartce ramki. Większa rozdzielczość w czasie jest możliwa przez interpolację pomiędzy transmitowanymi danymi lokalnie.

Każdy współczynnik jest 8-bitowym, oznaczonym, ułamkowym, dwójkowym Q2 i reprezentuje wartość wzmocnienia logarytmicznego, jak to pokazano w tablicy 53 podającej zakres +/-31,75 dB w etapach 0,25 dB. Współczynniki są uporządkowane przez liczbę kanałów. Na zakres dynamiczny kompresji oddziałuje się przez mnożenie dekodowanych próbek akustycznych przez współczynnik liniowy.

Stopień kompresji można zmieniać przez właściwą regulację wartości współczynników w dekoderze lub wyłączanie całkowite przez ignorowanie współczynników.

32-pasmowy zespół 44 filtrów interpolacji przetwarza 32 padoasma dla każdego kanału akustycznego w pojedynczy sygnał strefy czasu z modulacją kodowo-impulsową. Niedoskonałe współczynniki odtwarzania, 512-zaczepowe filtry FIR, są stosowane, gdy FILTS=0. Doskonałe współczynniki odtwarzania są stosowane, gdy FILTS=1. Normalnie współczynniki modulacji

183 498 cosmus będą obliczane wstępnie i pamiętane w ROM. Procedura interpolacji może być rozszerzona dla odtworzenia większych bloków danych w celu zmniejszenia wymaganych wielkości zasobów pętli. Jednak w przypadku ramek zakończenia minimalna rozdzielczość, którą można uzyskać, wynosi 32 próbki z modulacją kodowo-impulsową. Algorytm interpolacji jest jak następuje· utworzenie współczynników modulacji cosinus, wczytanie 32 nowych próbek podpasma do układu X1N, pomnożenie przez współczynniki modulacji cosinus i utworzenie układów tymczasowych SUM i D1FF, zapamiętanie historii, pomnożenie przez współczynniki filtrów·, utworzenie 32 próbek wyjściowych z modulacją kodowo-impulsową, aktualizacja układów roboczych i wyprowadzenie 32 nowych próbek z modulacją kodowo-impulsową.

W zależności od szybkości transmisji bitów i schematu kodowania podczas działania, strumień bitów może określać współczynniki F1LTS albo niedoskonałego albo doskonałego zespołu filtrów interpolacji odtwarzania. Ze względu na to, że zespoły filtrów działania dziesiętnego kodera są obliczane z 40-bitową dokładnością nieustaloną, zdolność dekodera do uzyskiwania maksymalnej teoretycznej dokładności odtwarzania zależy od długości słowa źródła z modulacją kodowo-impulsową i dokładności rdzenia DSP dla obliczania splotów i sposobu, w który operacje są skalowane.

Przy interpolacji z modulacją kodowo-impulsową zjawisk o małych częstotliwościach, dane akustyczne związane z kanałem zjawisk o małej częstotliwości są niezależne od głównych kanałów akustycznych. Ten kanał jest kodowany przy zastosowaniu 8-bitowego procesu APCM działającego na wejściu 20-bitowym z modulacjąkodowo-impulsową, X128 dziesiętnym (o szerokości pasma 120 Hz). Dziesiętne zjawiska akustyczne są regulowane w czasie przez bieżącą podramkę akustyczna w głównych kanałach akustycznych. Zatem, ponieważ opóźnienie w 32-pasmowym zespole filtrów interpolacji wynosi 256 próbek, 512 zaczepów, należy uważać na zapewnienie tego, żeby interpolowany kanał zjawisk o małej częstotliwości był także wyregulowany z pozostałymi kanałami akustycznymi przed wyjściem. Nie jest wymagana żadna kompensacja, jeżeli FIR interpolacji zjawisk jest także 512-zaczepowy.

Algorytm LFT wykorzystuje 512 zaczepowy FlR interpolacji 128X jak następuje: odwzorowanie 7-bitowego współczynnika skalowania w rms, pomnożenie przez wielkość stopniową

7-bitowego urządzenia kwantującego, wytworzenie wartości podpróbek z wartości normalizowanych i interpolacja przez 128 przy zastosowaniu filtru dolnoprzepustowego, takiego jak dany dla każdej podpróbki.

Figury 21 i 22 przedstawiają podstawową strukturę funkcjonalną wykonania sprzętu komputerowego wersji sześciokanałowej kodera i dekodera dla działania z szybkościami próbkowania 32,44/1148 kHz Omawiając fig. 22, stosowanych jest osiem mikroukładów 296 procesorów sygnałów cyfrowych (DSP) urządzeń analogowych ADSP21020 40-bitowych, zmiennopozycyjnych, do wykonania sześciokanałowego, cyfrowego kodera akustycznego 298. Sześć DSP jest stosowanych do kodowania każdego z kanałów, podczas gdy siódmy i ósmy są stosowane do realizacji funkcji “rozdziału i zarządzania bitami globalnymi” i “formatera strumienia danych i kodowania błędu”. Każdy ADSP21020jest zegarowany przy częstotliwości 33 MHz i wykorzystuje zewnętrzną, 48-bitową X 32k ram programu (PRAM) 300, 40-bitową X 32k ram danych (SRAM) 302 do przeprowadzania algorytmów. W przypadku koderówjest stosowany także 8-bitowy X 512k EPROM 304 do pamiętania ustalonych stałych, takich jak książki kodów entropii o zmiennej długości. Strumień danych formatujący DSP stosuje mikroukład CRC 306 Reeda Solomona do ułatwiania wykrywania błędu i zabezpieczania dekodera. Komunikacja pomiędzy koderem DSP oraz przydziałem i zarządzaniem bitów globalnychjest realizowana przy zastosowaniu dwuwejściowej, statycznej RAM 308.

Przebieg przetwarzania kodowania jest jak następuje. 2-kanałowy, cyfrowy strumień danych akustycznych z modulacją kodowo-impulsową 310 jest wydzielany na wyjściu każdego z trzech cyfrowych odbiorników akustycznych AES/EBU. Pierwszy kanał każdej pary jest kierowany kolejno do DSP kodera CH1, 3 i 5, podczas gdy drugi kanał każdego jest kierowany kolejno do CH2,416. Próbki z modulacją kodowo-impulsową są wczytywane do DSP przez przetwarzanie słów z modulacjąkodowo-impulsowąszeregowych w równoległe (s/p). Każdy koder gromadzi

183 498 ramkę próbek z modulacJąkodowo-lmpulsowąi realizuje kodowanie danych ramki, jak to opisano poprzednio. Informacja dotycząca ocenianego sygnału różnicowego (ed(n)) i próbek podpasma (x(n)) dla każdego kanałujest transmitowana do DSP przydziału i zarządzania bitami globalnymi przez dwuwejściową RAM. Strategie przydziału bitów dla każdego kodera sąnastępnie odczytywane wstecznie w ten sam sposób. Po zakończeniu procesu kodowania, dane kodowane i informacja wstęgi bocznej dla sześciu kanałów są transmitowane do formatera DSP strumienia danych przez przydział i zarządzanie DSP bitami globalnymi. W tym etapie bajty kontroli CRC są wytwarzane selektywnie i dodawane do danych kodowanych w celu zapewnienia ochrony przed błędami w dekoderze. W końcu cały pakiet danych 16 jest gromadzony i dostarczany na wyjście.

Sześciokanałowe wykonanie dekodera komputerowego jest opisane na fig. 22. Mikroukład 324 procesora sygnałów cyfrowych (DSP) pojedynczych urządzeń analogowych ADSP21020 40-bitowych, zmiennopozycyjnych, jest stosowany do wykonania sześciokanałowego, cyfrowego dekodera akustycznego ADSP21020 jest zegarowany przy 33 MHz i wykorzystuje zewnętrzną, 48-bitowąX 32k ram programu (PRAM) 326, 40-bitowąX 32k ram danych (SRAM) 328 do przeprowadzania algorytmu dekodowania. Dodatkowa 8-bitowa X 512k EPROM 330 jest także stosowana do pamiętania ustalonych stałych, takich jak entropia o zmiennej długości i książki kodów wektorów współczynników prognozowania.

Przebieg przetwarzania dekodowania jestjak następuje. Skompresowany strumień danych 16 jest wprowadzany do DSP przez przetwornik szeregowo-równoległy (s/p) 332. Dane są rozpakowywane i dekodowane, jak to przedstawiono poprzednio. Próbki podpasma są odtwarzane w pojedynczym strumieniu danych z modulacjąkodowo-impulsową22 dla każdego kanału i wyprowadzane do trzech mikroukładów 334 cyfrowych nadajników akustycznych AES/EBU przez trzy przetworniki równoległo-szeregowe (p/s) 335.

Dla przykładu, gdy szybkości procesora wzrastająi pamięci sąmniej skomplikowane, częstotliwości próbkowania, szybkości transmisji i wielkość bufora najprawdopodobniej wzrastają.

183 498

C\2

O

>, m —< -p

N Ul t-l-rl en x> tn a

183 498 νθ

m cn αο

183 498


C	ui >,
φ	C
	Φ
ο	Ό
V)
φ	C
£_	Φ
CL	—
ε	ε
ο

ί/ϊ	(Λ

Φ απ _ <Γ ° C ωο ΰ ίλ u C w V*

-'μ- σ> Ζ3 r; υ 1Λ (U Ο183 498 ο

ct αι c

O CT° 4? V?⁰¹ <u O o ^c

CT N

o Z -*Z iZ) m

JZ) <$CT

U_

183 498

o ν) α.

cm

CM

un

o

LJ

CL

183 498

FIG. 6

FIG.8

FIG.9

183 498

FIG. 11A

109

	Bufor podramki
TMODE	Pod-podramka 1	Pod-pod- \| Pod-pod- ramka 2 \| ramka 3	Pod-podramka 4
0	RMS 1 lub Peak 1
1	RMS 1 lub Peak 1	RMS 2 lub Peak 2
2	RMS liub Peak 1 RMS 2 lub Peak 2
3	RMS 1 lub Peak 1	RMS 2 lub Peak 2

110

FIG. 11B

183 498

yługości_ ______| /THUFF ->VTMODE(j)

FIG. 12

183 498

U (0

L

Cu ε

Φ

X!

>1

1-1 +J

Φ

Ή c

(0 o

M

Φ

X ω

οα

O

CO

FIG. 13

183 498

FIG. 15

FIG. 16

183 498 (dB)

FIG.18B

183 498

Ο αο

-X οι

C

ΙΜ <_) αο

Ο \Ο

Ο <1CNI

Os αο ο»

ΓχΙ \Ο

L/3

Cul

Ό

Ο

CM

- (Λ

ΓΌ

'. (Ο

-X 3^ Ό ω σ,ε

Π3 J0 2 ^u

Ο

CM

Cul

Ο

Cul \

ο ο

Cul \

Λ&

Ο£ ₍

5« i

C kj >u«O i (Z) N

TT c u.

y

5-S <u o. 3 £ ę-S £ lii tJ OłO o»>,łOw Cl

9^3

-5 >vj i Sć (Λ

NJ O.U ξίΞ > — o

Ό OJ Qj

5? ~ ić -» u £ C =>

e θ'* _ _O Π3

V αο co i

1 PODRAMKA AKUSTYCZNA 2 1	Synchroni- zacja rozpakowania
Opcjonalne sygnały akustyczne próbko- wane nadmiernie
ί c 3> N -£x ?^3 ό 3 £ ™
Fbd-podramka 3 Kody akustyczne
Pod-podramka2 Kody akustyczne
Fbd-podramka 1 Kody akustyczne
a o -sio ra Ń? Q.uj
3 ΛΛ o i > S-To IżJ Ό 4lQ> O — M 3 O
Informacja boczna akustyczna

fry < Z ni UJ >-	Synchroni- zacja rozpakowania
Opcjonalne sygnały akustyczne próbko- wane nadmiernie
•J- 5 Ol 1 £ (_ UJ =&£·-£· ą° s Ό JĆ £ *
Ί m C N 2 o w hSc 3 Ό -Jg & ¹⁰
uo o ic < < ić ΣΞ < QC O O Q_	Pod-podbramki Kody akustyczne
Rod-podbramka1 Kody akustyczne
O _o ΉΓ 3 — w lu 4_ -Seo (u N 2> —«<_ N NI CL uj
Kody VQ wielkiej częstotliwości
Informacja boczna akustyczna

< z NJ UJ >-	Synchroni- zacja rozpa, kowania
Opcjonalne sygnały akustyczne próbko- wane nadmiernie
<9 jz ω W R-O-i a°« 1 <£ ¹⁰
Pod-podramka 3 Kody akustyczne
UO Z) ić < < ić r < cc	CM <9 u -4 C C ful fe 9^3 -o & ^m
LJ O CU	Pod-podramka 1 Kody akustyczne
UJ V) , o — 5P3 5-»x v> Go 3 ΙΌ M Q> NI O.C1
UJ V) o σ > Oł-»- O OJ «► UJ — «U Zi u
In formacja boczna akustyczna

ig. 19

183 498

Fig.20

183 498

GO σ'

Csl o

“O d>

ra
>,
c	c
ro	ro
Ό	5 o
.£2	N
’c OJ	O c
	cn
E	o
3 l_	ί- α.
(Λ	ro
(_	‘c
JU	ro 5
ro	o

c_ o O-* u___ sO

ct3 oj _2 c — ro -Q o T <Λ C

Ό o

CM

-J*

X

Φ

Ό

O

X

IZ '5'zl

X

ADSP21020 40-bitowe	zmiennopo- zycyjne DSP
J
□ — 3 5 O 3	seto- we SRAM

PM

X

X m

m

OO

O m

N

O >*x:

ω.£

«.s c o ro—· n cn ro·?

N O C_ -łr3'-5

Ό o

CM

PM

X

X m

m j'

X

L->

Qł

Ό

O

	-5—
c_	CD
O	Iti
J3J£	(Z)
T> c O^c	<

E

Φ

Ό

O

X

183 498

IN CM ΓΧ ίΧ ΓΜ <Ν

3	3	3
Al	Al	Al
(0	«3	<0
c	fi	fi
θ'	θ'	en
>.	Fi	>1
to	to	to
0	O	O
θ'	θ'	tn
0)	(U	Φ
3	3	3
0	0	0
M	O I-i 0	H 0
Μ-»	CntNM-l Cn^r	m owo
>1	Φ >i®	>1 Φ
υ	fi -H O fi -H N N	o fi -η N
φ	O r-l Φ o n	Φ O tn
-H	>i -H >,	Ή >,
u	+) W □ -P rM	υ -u ah
xo	o ιβχο to ίο	Xfl to <0
•n 3 fi -n 3 fi	n 3 fi
>iAJ (0 <0	(0
s	<0 .*& <0 Ai	3: <0 Ai

<N.

CN

-η μ ο -η □ ιχ en ε 3 χο ε Φ 3 Ό •η Ο C Μ 4->

Φ At <0 -U -d

S to 3 to η

183 498

Departament Wydawnictw UP RP. Nakład 70 egz.

Cena 6,00 zł.

Claims

Zastrzeżenia patentowe

1. Dekoder akustyczny wielokanałowy do odtwarzania wielokrotnych kanałów akustycznych aż do szybkości próbkowania dekodera ze strumienia danych, w którym każdy kanał akustyczny był próbkowany z szybkością próbkowania kodera, przynajmniej tak dużąjak szybkość próbkowania dekodera, podzieloną na wiele podpasm częstotliwości, poddaną kompresji i multipleksowana w strumień danych z szybkościątransmisji, znamienny tym, że zawiera bufor wejściowy (324) do wczytywania i pamiętania strumienia danych w danym czasie, ze słowem synchronizacji, nagłówkiem ramki, nagłówkiem akustycznym i co najmniej jednąpodramką, do którego jest dołączony demultiplekser (40) do wykrywania słowa synchronizacji, rozpakowania nagłówka ramki dla wydzielania wielkości okna nastawianej w funkcji stosunku szybkości transmisji do szybkości próbkowania kodera, rozpakowania nagłówka akustycznego i sekwencyjnego rozpakowania każdej podramki. do którego jest dołączony dekoder (42,44) pasma podstawowego do dekodowania kodów akustycznych podpasma w odtwarzane sygnały podpasma, bez odniesienia do jakichkolwiek innych podramek, do którego jest dołączony filtr (44) odtwarzania pasma podstawowego, do którego jest dołączony dekoder (58,60) o dużej szybkości próbkowania, do dekodowania kodów akustycznych o dużej szybkości próbkowania w odtworzony sygnał o dużej szybkości próbkowania dla każdego kanału akustycznego i filtr (62) odtwarzania kanału, który łączy sygnały odtworzony pasma podstawowego i o dużej szybkości próbkowania w wielokanałowy sygnał akustyczny.
2. Dekoder według zastrz. 1, znamienny tym, że filtr (44) odtwarzania pasma podstawowego zawiera niedoskonały zespół filtrów odtwarzania NPR i doskonały zespół filtrów odtwarzania PR oraz nagłówek ramki zawiera kod filtru do wyborujednego spośród zespołów filtrów NPR i PR.
3. Dekoder według zastrz. 1, znamienny tym, że dekoder pasma podstawowego zawiera wiele odwrotnych koderów (268,270) z adaptacyjną różnicową modulacją kodowo-impulsową do dekodowania kodów akustycznych pasma podstawowego, a informacja boczna zawiera współczynniki prognozowania dla koderów ADPCM i stan prognozowania PMODE dla sterowania dostarczaniem współczynników prognozowania do koderów ADPCM.
4. Dekoder według zastrz. 1, znamienny tym, że informacja boczna zawiera tablicę przydziału bitów dla każdego podpasma kanału, w którym każda szybkość transmisji bitów podpasma jest stała w podramce, co najmniej jeden współczynnik skalowania dla każdego podpasma w każdym kanale i stan przejściowy tMODE dla każdego podpasma w każdym kanale, dla identyfikacji liczby współczynników skalowania i związanych z nimi pod-podramek, przy czym dekoder pasma podstawowego jest przystosowany do skalowania kodów akustycznych podpasm przez poszczególne współczynniki skalowania zgodnie ze stanami TMODE.