PL168474B1

PL168474B1 - P L 168474 B 1 Sposób dokonywania kompresji cyfrowego sygnalu wejsciowego PL

Info

Publication number: PL168474B1
Application number: PL92294003A
Authority: PL
Inventors: Kenzo Akagiri
Original assignee: Sony Corp
Priority date: 1991-03-29
Filing date: 1992-03-27
Publication date: 1996-02-29
Also published as: EP0531538A4; AU654533B2; KR100312664B1; CN1065565A; AU1338392A; HU9203759D0; PL294003A2; NO924552D0; WO1992017942A1; FI925400A; DE69225100T2; HU213592B; FI109627B; EP0531538B1; DE69225100D1; CN1032102C; FI925400A0; NO924552L; EP0531538A1; RU2090973C1

Abstract

1. SPOSÓB DOKONYWANIA KOMPRESJI CYFROWEGO SYGNALU WEJSCIOWEGO DLA OTRZYMANIA SYGNALU SKOM- PRYMOWANEGO NA ZASADZIE PRZYPORZADKOWANIA BITÓW, W KTÓRYM ROZDZIELA SIE SYGNAL NA SKLADOWE MIEDZY BLOKI I ADAPTACYJNIE PRZYDZIELA SIE LICZBE BITÓW KWAN- TYZACJI DO KAZDEGO BLOKU, ZNAMIENNY TYM, ZE CYFRO- WY SYGNAL WEJSCIOWY PRZEKSZTALCA SIE NA SKLADOWE WIDMOWE, ROZDZIELA SIE SKLADOWE WIDMOWE NA PASMA KRYTYCZNE, ROZDZIELA SIE SKLADOWE WIDMOWE W PAS- MACH KRYTYCZNYCH MIEDZY BLOKI O SZEROKOSCI PASMA MNIEJSZEJ OD PASMA KRYTYCZNEGO, NASTEPNIE STOSUJE SIE ZMIENNOPRZECINKOWE PRZETWARZANIE BLOKÓW I WYZNA- CZA SIE ZMIENNY WSPÓLCZYNNIK DLA KAZDEGO BLOKU, SKLADOWE WIDMOWE W KAZDYM BLOKU PODDAJE SIE KWAN- TYZACJI Z UZYCIEM LICZBY BITÓW PRZYPORZADKOWANYCH DO BLOKÓW W ZALEZNOSCI OD DOPUSZCZALNEGO POZIOMU SZU- MU DLA PASMA KRYTYCZNEGO, PRZY CZYM LICZBA ALOKOWA- NYCH BITÓW WSKAZANA JEST PRZEZ DLUGOSC SLOWA ORAZ WLACZA SIE W SYGNAL SKOMPRYMOWANY DLUGOSC SLOWA DLA KAZDEGO BLOKU, A W MIEJSCE ZMIENNEGO DLA KAZDE- GO BLOKU WSPÓLCZYNNIKA, WLACZA SIE DOPUSZCZALNY POZIOM SZUMÓW DLA PASMA KRYTYCZNEGO. F I G .1 A PL

Description

Przedmiotem wynalazku jest sposób dokonywania kompresji cyfrowego sygnału wejściowego, zwłaszcza cyfrowego sygnału akustycznego.

Do dokonywania kompresji cyfrowych sygnałów akustycznych lub sygnałów dźwięku, znana jest technika oparta na przyporządkowaniu bitów z rozdzielaniem sygnału akustycznego na składowe sygnału między bloki w dziedzinie czasowej lub w dziedzinie częstotliwościowej, oraz adaptacyjnym przydzielaniu liczby bitów kwantyzacji do każdego bloku. Wśród sposobów kodowania opartych na wspomnianym przydziale bitów znajduje się na przykład kodowanie podpasm, w którym cyfrowy sygnał akustyczny jest rozdzielony w dziedzinie czasowej na składowe widmowe w wielu pasmach częstotliwości, a następnie składowe widmowe są kwantyzowane. Znane jest również kodowanie z transformacją adaptacyjną, w którym cyfrowy sygnał akustyczny poddaje się transformacji ortogonalnej w dziedzinie czasowej, na sygnał w dziedzinie częstotliwościowej rozdzielony na składowe widmowe w wielu pasmach częstotliwości. Składowe widmowe w każdym pasmie częstotliwości są następnie kwantyzowane adaptacyjnie. Znane jest również kodowanie z adaptacyjnym przydzielaniem bitów, w którym kodowanie podpasm oraz adaptacyjne kodowanie predykcyjne są stosowane łącznie, dla rozdziału sygnału w dziedzinie czasowej na składowe widmowe w pasmach częstotliwości. Składowe widmowe w poszczególnych pasmach są następnie przekształcone w składowe widmowe w pasmach podstawowych i przeprowadzona zostaje wielostopniowa liniowa analiza predykcyjna, która w wyniku daje kodowanie predykcyjne.

W innym znanym sposobie, bloki uzyskuje się przez rozdział cyfrowego sygnału akustycznego w czasie, które są transformowane do dziedziny częstotliwościowej za pomocą transformacji ortogonalnej na przykład szybkiej transformacji Fouriera, lub dyskretnej transformacji kosinusoidalnej. Powstałe składowe widmowe są rozdzielone między wiele pasm, a składowe widmowe w każdym pasmie są kwantyzowane przez adaptacyjne przydzielanie bitów. Kwantyzowane składowe widmowe są następnie włączone w skomprymowany sygnał.

Często jest stosowany sposób kwantyzacji pasm składowych widmowych z użyciem adaptacyjnego przydzielania bitów, w którym rozdziela się składowe widmowe między bloki i stosuje się zmiennoprzecinkowe przetwarzanie bloków dla każdego bloku i uzyskuje się dalsze podwyższenie kompresji danych. Ze względu na to, jak również na konfigurację komlementarnego ekspandera, skomprymowany sygnał obejmuje również podinformację zawierającą zmienny dla każdego bloku współczynnik oraz długość słowa odpowiadającą każdemu zmiennemu współczynnikowi i wskazującą liczbę przydzielonych bitów kwantyzacji składowych widmowych w blokach.

Jednakże we wspomnianym sposobie kompresji celowe jest dalsze zwiększenie skuteczności kompresji.

Sposób według wynalazku przeznaczony jest do dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego na zasadzie przyporządkowania bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku. Sposób tego rodzaju charakteryzuje się tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe w pasmach krytycznych między bloki o szerokości pasma mniejszej od pasma krytycznego, następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków i wyznacza się zmienny współczynnik dla każdego bloku. Składowe widmowe w każdym bloku poddaje się kwantyzacji z użyciem liczby bitów przyporządkowanych do bloków w zależności od dopuszczalnego poziomu szumu dla pasma krytycznego. Liczba alokowanych bitów wskazana jest przez długość słowa. Ponadto, włącza się w sygnał skomprymowany długość słowa dla każdego bloku, a w miejsce zmiennego dla

168 474 każdego bloku współczynnika, włącza się dopuszczalny poziom szumów dla pasma krytycznego·

Składowe widmowe z cyfrowego sygnału wejściowego otrzymuje się za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego z użyciem dyskretnej transformacji kosinusoidalnej (DCT).

Składowe widmowe w zakresie częstotliwości od 0 Hz do 22 kHz rozdziela się między 25 pasm krytycznych o szerokościach wzrastających w miarę wzrostu częstotliwości pasma krytycznego.

W czasie kwantyzacji składowych widmowych w każdym bloku oblicza się dopuszczalny poziom szumu na podstawie składowych widmowych, oraz oblicza się amplitudy dla każdego bloku na podstawie składowych widmowych zawartych w bloku. W czasie kwantyzacji składowych widmowych w każdym bloku, liczbę bitów przydziela się w zależności od różnicy poziomów między amplitudą bloku i dopuszczalnym poziomem szumów.

W wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe, zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego bloku oblicza się amplitudy przez sumowanie informacji amplitudowych składowych widmowych w bloku.

W czasie obliczania dopuszczalnego poziomu szumów oblicza się amplitudę dla każdego pasma krytycznego przez sumowanie informacji, odpowiadających amplitudzie składowych widmowych w każdym odpowiednim pasmie krytycznym oraz wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania. W czasie włączania dopuszczalny poziom szumu włączony w sygnał skomprymowany poddaje się kwantyzacji zgrubnej, a do każdego bloku sygnału skomprymowanego włącza się bity dodatkowe, i zapewnia się dokładną kwantyzację dopuszczalnego poziomu szumu.

Dopuszczalny poziom szumu włączony w sygnał skomprymowany poddaje się kwantyzacji zgrubnej z użyciem pierwszej liczby bitów, a do każdego bloku sygnału skomprymowanego włącza się drugą liczbę bitów dodatkowych i zapewnia się dokładną kwantyzację dopuszczalnego poziomu szumu.

Jako pierwszą liczbę bitów stosuje się cztery, a jako drugą liczbę bitów stosuje się dwa.

Jako kwantyzację zgrubną i kwantyzację dokładną dopuszczalnego poziomu szumów stosuje się kwantyzację logarytmiczną.

W odmiennym rozwiązaniu, sposób dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego, na zasadzie przyporządkowanie bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku charakteryzuje się tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe między bloki o szerokości pasma odpowiadającej wielu pasmom krytycznym. Następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków i wyznacza się współczynnik zmienny oraz poddaje się kwantyzacji składowe widmowe w każdym pasmie krytycznym z użyciem adaptacyjnie przydzielanej liczby bitów.

Składowe widmowe otrzymuje się z cyfrowego sygnału wejściowego za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego z użyciem dyskretnej transformacji kosinusoidalnej (DCT).

Przydziela się składowe widmowe do bloku o szerokości pasma odpowiadającej wielu pasmom krytycznym, przy czym składowe widmowe w bloku znajdują się w pobliżu dolnych częstotliwości zakresu częstotliwościowego.

W czasie kwantyzacji składowych widmowych w każdym pasmie krytycznym, z użyciem adaptacyjnie przydzielanej liczby bitów, tę adaptacyjną liczbę bitów określa się przez długość słowa, a ponadto włącza się sygnał skomprymowany współczynnik zmienny dla bloku, jako wspólny współczynnik zmienny dla pasm krytycznych bloku, i długość słowa dla każdego pasma krytycznego zawartego bloku.

168 474

W czasie kwantyzacji składowych widmowych oblicza się amplitudę dla każdego bloku, na podstawie składowych widmowych zawartych w pasmie krytycznym, oblicza się dopuszczalny poziom szumu dla każdego pasma krytycznego na podstawie składowych widmowych, oraz oblicza się adaptacyjnie przydzielaną liczbę bitów każdego z pasm krytycznych na podstawie różnicy poziomów między amplitudą pasma krytycznego i dopuszczalnym poziomem szumów dla pasma krytycznego.

W wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego pasma krytycznego oblicza się amplitudy przez sumowanie informacji amplitudowych składowych widmowych w pasmie krytycznym. W czasie kwantyzacji składowych widmowych wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.

W drugim odmiennym przykładzie według wynalazku sposób dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego, na zasadzie przyporządkowania bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku, charakteryzuje się tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe w pasmach krytycznych między bloki o szerokości pasma mniejszej od pasma krytycznego. Następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków dla wyznaczenia zmiennego współczynnika dla każdego bloku, oraz poddaje się kwantyzacji składowe widmowe w każdym bloku, z użyciem pewnej liczby bitów adaptacyjnie przyporządkowanych do bloków.

Przydziela się składowe widmowe do bloków o szerokości pasma mniejszej od pasma krytycznego, a pasmo krytyczne znajduje się w pobliżu górnych częstotliwości zakresu częstotliwościowego.

W czasie kwantyzacji składowych widmowych w każdym bloku z użyciem adaptacyjnie przydzielanej liczby bitów, tę adaptacyjną liczbę bitów określa się przez długość słowa, a ponadto włącza się w sygnał skomprymowany długość słowa dla jednego z bloków w pasmie krytycznym jako wspólną długość słowa dla bloków w pasmie krytycznym.

W czasie kwantyzacji składowych widmowych w każdym bloku oblicza się dopuszczalny poziom szumu dla każdego pasma krytycznego na podstawie składowych widmowych, oblicza się amplitudę dla każdego bloku na podstawie składowych widmowych zawartych w bloku, oraz oblicza się adaptacyjnie przydzielaną liczbę bitów dla każdego bloku na podstawie różnicy poziomów między amplitudą bloku i dopuszczalnym poziomem szumów.

W wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego bloku oblicza się amplitudy przez sumowanie informacji amplitudowych składowych widmowych w bloku.

W czasie obliczania dopuszczalnego poziomu szumów oblicza się amplitudę dla każdego pasma krytycznego przez sumowanie informacji, odpowiadających amplitudzie składowych widmowych w każdym odpowiednim pasmie krytycznym, oraz wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.

W kolejnym odmiennym przykładzie sposobu według wynalazku dokonuje się kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego, na zasadzie przyporządkowania bitów. Rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku. Sposób tego rodzaju charakteryzuje się tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe w pasmach krytycznych między

168 474 bloki o szerokości pasma mniejszej od pasma krytycznego. Następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków dla wyznaczenia zmiennego współczynnika dla każdego bloku, poddaje się kwantyzacji składowe widmowe w każdym bloku, z użyciem liczby bitów przyporządkowanych do bloków w zależności od dopuszczalnego poziomu szumu dla pasma krytycznego. Liczbę alokowanych bitów określa się przez długość słowa. W sygnał skomprymowany w miejsce zmiennego współczynnika dla każdego bloku, włącza się dopuszczalny poziom szumów w zakresie przesuniętym w dół względem poziomu o określoną wartość od zakresu poziomu sygnału dla pasma krytycznego.

Składowe widmowe otrzymuje się z cyfrowego sygnału wejściowego za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego, z użyciem dyskretnej transformacji kosinusoidalnej (DCT).

Składowe widmowe w zakresie częstotliwości od 0 Hz do 22 kHz rozdziela się między 25 pasm krytycznych, o szerokościach wzrastających w miarę wzrostu częstotliwości pasma krytycznego.

W czasie kwantyzacji składowych widmowych w każdym bloku oblicza się dopuszczalny poziom szumu na podstawie składowych widmowych, oraz oblicza się amplitudę dla każdego bloku na podstawie składowych widmowych zawartych w bloku, a ponadto w czasie kwantyzacji składowych widmowych w każdym bloku, liczbę bitów przydziela się w zależności od różnicy poziomów między amplitudą bloku i dopuszczalnym poziomem szumów.

W wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego bloku oblicza się amplitudę przez sumowanie informacji amplitudowych składowych widmowych w bloku.

W czasie obliczania dopuszczalnego poziomu szumów oblicza się. amplitudę dla każdego pasma krytycznego przez sumowanie informacji odpowiadających amplitudzie składowych widmowych w każdym odpowiednim pasmie krytycznym, oraz wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.

Rozwiązanie według wynalazku objaśniono bliżej w przykładzie wykonania na rysunku, na którym fig. 1A przedstawia wykres wyjaśniający zmiennoprzecinkowe przetwarzanie bloków według wynalazku, w bloki o szerokości pasma mniejszej niż szerokość pasma krytycznego, fig. 1B - wykres wyjaśniający zmiennoprzecinkowe przetwarzanie bloków w bloki o szerokości pasma większej niż szerokość pasma krytycznego, fig. 2 - sieć działań, fig. 3 - schemat blokowy układu do określania dopuszczalnego poziomu szumów, fig. 4 - widmo percepcyjne, fig. 5 - widmo maskowania, fig. 6 krzywą minimalnego słyszalnego poziomu syntetyzowaną widmem maskowania, a fig. 7 przedstawia dopuszczalne poziomy szumów przesyłanych do poszczególnych bloków.

Sposób kompresji cyfrowego sygnału wejściowego według wynalazku dotyczy, zwłaszcza sposobu kwantyzacji sygnału cyfrowego, jak to przedstawiono na fig. 1A i 1B. Zgodnie z tym sposobem, cyfrowy sygnał wejściowy jest w dziedzinie czasowej transformowany ortogonalnie z zastosowaniem na przykład szybkiej transformacji Fouriera lub dyskretnej transformacji kosinusoidalnej, co daje w wyniku składowe widmowe w dziedzinie częstotliwościowej. Składowe widmowe zostają rozdzielone częstotliwościowo między wiele pasm krytycznych, takich jak pasmo krytyczne B. Szerokość pasma pasm krytycznych wzrasta wraz ze wzrostem częstotliwości ze względu na charakterystyki odróżniania częstotliwości dla czułości słuchu człowieka. Składowe widmowe w każdym pasmie krytycznym są kwantyzowane z użyciem wielu bitów przydzielonych według różnicy pomiędzy dopuszczalnym poziomem szumu NL dla pasma krytycznego i energią w pasmie krytycznym. Składowe widmowe są również rozdzielone między bloki, takie jak blok b, do którego zastosowane jest zmiennoprzecinkowe przetwarzania bloków. Zmienny współczynnik Fc bloku, określony dla bloku przez zmiennoprzecinkowe przetwarzanie bloków, jest również zawarty w sygnale skomprymowanym.

W przedstawionym przykładzie przeprowadzane jest przetwarzanie danych zgodnie z siecią działań z fig. 2. Najpierw w etapie S1, ortogonalnie przekształcone składowe widmowe są rozdzielone pomiędzy bloki, do których stosuje się zmiennoprzecinkowe przetwarzanie bloków. Zmiana bloku określa zmienny dla każdego bloku współczynnik. W etapie S2 określony jest dopuszczalny poziom szumów dla każdego pasma krytycznego, ustalony na podstawie energii w pasmie krytycznym. W etapie S3 określana jest dla każdego pasma krytycznego

168 474 długość słowa odpowiadająca liczbie przydzielonych bitów do kwantyzacji składowych widmowych w pasmie krytycznym zgodnie z wielkością różnicy pomiędzy dopuszczalnym poziomem szumu w paśmie krytycznym i energią w paśmie krytycznym.

Na figurze 1A przestawiono zmiennoprzecinkowe przetwarzanie bloków zastosowane do wszystkich podbloków b1 do b4 mających szerokość pasma mniejszą od szerokości pasma krytycznego B. Wykorzystano sposób przesyłania informacji dotyczącej dopuszczalnego poziomu szumu NL i informacji długości słów W1 do W4, odpowiadającej liczbom bitów przydzielonych do każdego podbloku bl do b4, zamiast zmiennego współczynnika bloku pasma krytycznego B. Na fig. 1B przedstawiono przykład przeprowadzania zmiennoprzecinkowego przetwarzania bloków dla bloku b, mającego szerokość pasma większą od szerokości pasm krytycznych B1 do B4. Wykorzystano sposób przesyłania informacji dotyczącej zmiennych współczynników bloku b, oraz przesyłania długości słów W1 do W4, odpowiadającej liczbie przydzielonych bitów do kwantyzacji składowych widmowych w pasmach krytycznych B1 do B4.

W przykładzie z fig. 1A wydzielono i zilustrowano jedno pasmo krytyczne B dla wyższych częstotliwości, które ma względnie dużą szerokość pasma. Przykład z fig. 1B przedstawia cztery pasma krytyczne B1 do B4 o niższej częstotliwości i mniejszej szerokości pasma. Ze względu na to, że odpowiednie różnice poziomów są użyte dla określenia liczby bitów przydzielonych i długości słów W1 do W4, liczby bitów przydzielonych mogą być pominięte na fig. 1A i łB, co upraszcza rysunek.

Składowe widmowe będące wynikiem transformacji ortogonalnej są kwantyzowane z zastosowaniem adaptacyjnego przydziału bitów. Kwantyzacja z użyciem adaptacyjnego przydziału bitów określa tak zwaną wielkość maskowania, biorąc pod uwagę charakterystykę czułości słuchu człowieka. Wielkość maskowania jest określona na podstawie energii każdego z pasm krytycznych. Następnie odbywa się przydział do każdego pasma liczby bitów kwantyzacji, odpowiadającej poziomowi wskazującemu różnicę pomiędzy dopuszczalnym poziomem szumu ustalonym na podstawie wielkości maskowania, to jest faktycznie ustalonego dopuszczalnego szumu dla każdego pasma krytycznego i energii w paśmie krytycznym. Ostatecznie, każda składowe widmowa w każdym paśmie krytycznym jest kwantyzowana z użyciem liczby bitów przydzielonych do każdego z pasm krytycznych.

Wiele składowych widmowych w poszczególnych pasmach krytycznych tworzy bloki o ustalonej liczbie składowych widmowych, a dla bloków zastosowane jest zmiennoprzecinkowe przetwarzanie bloków dla osiągnięcia kompresji danych. Odpowiednio, jak w przykładzie z fig. 1A będzie występować wiele bloków, na przykład cztery bloki b1 do b4, w zakresie niższych częstotliwości, to znaczy większej szerokości pasma krytycznego B. Oprócz tego, jak przedstawiono na fig. 1B, w zakresie niższych częstotliwości, gdzie szerokość pasma krytycznego jest mniejsza, występuje w bloku b wiele pasm krytycznych, na przykład cztery pasma krytyczne B1 do B4.

Jeśli zmiennoprzecinkowe przetwarzanie bloków jest wprowadzone w przedstawiony sposób, to wymagana jest kwantyzacja składowych widmowych z zastosowaniem zmiennych współczynników dla zmiennoprzecinkowego przetwarzania bloków i długości słów, odpowiadających liczbom użytych bitów, gdy skomprymowany sygnał jest następnie ekspandowany. Ze względu na konfigurację ekspandera, kompresor sygnału powinien zawierać układ do przesyłania współczynników zmiennych i długości słów dla każdego bloku w skomprymowanym sygnale. Ekspander określa bit najbardziej znaczący w zmiennoprzecinkowym przetwarzaniu bloków, na podstawie zmiennego współczynnika. Także bit najmniej znaczący jest określany na podstawie długości słowa. W ten sposób określony jest dopuszczalny poziom szumu. Ponadto, amplituda sygnału jest określona na podstawie składowych widmowych w każdym bloku.

Zwykle 6 bitów jest przydzielonych dla każdego zmiennego współczynnika, a 4 bity są przydzielone do każdej długości słowa. W przypadku transformacji ortogonalnej stanowiącej dyskretną transformację Fouriera, wspomniane długości słów są takie, że amplituda i faza, lub część rzeczywista i część urojona są przedstawione za pomocą 4 bitów. Z tego względu, na przykład w przypadku gdy jedno pasmo krytyczne jest rozdzielone między wiele bloków za pomocą zmiennoprzemiennego przetwarzania bloków, to liczba bitów wymaganych dla całego

168 474 pasma krytycznego, odpowiadająca liczbie bloków między które pasmo jest rozdzielone, jest jak przedstawiono w tabeli 1.

Tabela 1

Nr przedziału pasma krytycznego	1	2	3	4
Zmienne współczynniki	6	6X2	6X3	6X4
Długości słów	4	4X2	4X3	4 X 4
Razem	10	20	30	40

W tabeli 1, w przypadku gdy pasmo krytyczne jest reprezentowane przez blok pojedynczy, wymaganych jest razem 10 bitów, 6 bitów dla zmiennego współczynnika i 4 bity dla długości słowa. W przypadku gdy pasmo krytyczne jest rozdzielone między dwa bloki, wymaganych jest razem 20 bitów, 6 X 2 (=12) bitów dla zmiennego współczynnika i 4 X 2 (=8) bitów dla długości słowa. Podobnie w przypadku, gdy pasmo krytyczne jest rozdzielone między trzy bloki, wymaganych jest razem 30 bitów, 6 X 3 (=18) bitów dla zmiennego współczynnika i 4 X 3 (=12) bitów dla długości słowa. W przypadku, gdy pasmo krytyczne jest rozdzielone na bloki, jak przedstawiono na fig. 1A, wymaganych jest razem 40 bitów, 6X4 (=24) bitów dla zmiennego współczynnika i 4 X 4 (=16) bitów dla długości słowa. Tak, więc ze wzrostem liczby bloków w pojedynczym paśmie krytycznym, wzrasta również liczba wymaganych bitów.

W przykładzie z fig. 1A według wynalazku, wykorzystano sposób przesyłania dopuszczalnego poziomu szumu NL dla całego pasma krytycznego B oraz długości słów W1 do W4 jako odpowiadający liczbom bitów przydzielonych do kwantyzacji składowych widmowych w blokach b1 do b4, zawartych jako subinformacja w sygnale skomprymowanym. Sposób nie wymaga aby w sygnale skomprymowanym zawarte były zmienne współczynniki Fc1 do Fc4 poszczególnych bloków b1 do b4 w paśmie krytycznym B. W późniejszej ekspansji, jeśli w sygnale skomprymowanym występuje dopuszczalny poziom szumu NL pasma krytycznego B, to zmienne współczynników Fcl do Fc4 każdego z bloków b1 do b4 mogą być określone na podstawie dopuszczalnego poziomu szumu NL i długości słów W1 do W4 poszczególnych bloków b1 do b4. Wykorzystano w tym przypadku występowanie zmiennych współczynników Fel do Fc4 w sygnale skomprymowanym. W ten sposób cztery zmienne współczynniki Fc1 do Fc4 pasma krytycznego B mogą być transmitowane do ekspandera z użyciem zmniejszonej liczby bitów.

Dopuszczalny poziom szumu NL jest określony dla każdego pasma krytycznego biorąc pod uwagę charakterystykę czułości słuchu człowieka. W paśmie krytycznym można uważać, że dopuszczalny poziom szumu NLjest stały wewnątrz każdego pasma krytycznego. Stosownie do tego, dopuszczalny poziom szumu NL jest tym samym poziomem również w każdym z bloków b1 do b4 w paśmie krytycznym B z fig. 1A.

Należy zauważyć, że gdy cały zakres dynamiczny wynosi na przykład 120dB, a zmienny współczynnik jest przedstawiony za pomocą 6 bitów, to zmienny współczynnik ma dokładność około 2dB. Natomiast długość słowa jest przedstawiona za pomocą 4 bitów, to długość słowa ma dokładność około 6dB. Z tego względu w przeprowadzonej następnie ekspansji składowych widmowych w blokach b1 do b4 z fig. 1A, dopuszczalny poziom szumu określony za pomocą zmiennych współczynników Fc1 do Fc4 i długości słów W1 do W4 ma odchylenie lub przesunięcie około 2dB, jak pokazano na fig. 7. Jednakże dopuszczalny poziom szumu NL zwykle mieści się w zakresie +3B. Tak więc w tym przykładzie wykonania do reprezentacji dopuszczalnego poziomu szumu NL zastosowano dwuetapową kwantyzację, która obejmuje wspólną kwantyzację zgrubną do pasma krytycznego i kwantyzację dokładną zastosowaną do każdego bloku w paśmie krytycznego. Umożliwia to ustawienie dopuszczalnego poziomu szumu NL na wartość wspólną z wysoką dokładnością. W przedstawionym przykładzie ponieważ dopuszczalny poziom szumu NL jest 4 bitowym poziomem logicznym to dopuszczalny poziom szumu NL, który nie może być przedstawiony za pomocą 4 bitowej reprezentacji jest w końcu przedstawiony za pomocą 2 bitowego poziomu logicznego. Stosowanie do tego, zakres około

168 474

6dB jest dzielony przez cztery, umożliwiając w ten sposób, że dopuszczalny poziom szumu ma dokładność l,5dB.

Jak stwierdzono, poszczególne dopuszczalne poziomy szumu NL są faktycznie równe w wielu blokach, co umożliwia wybranie parametru o wysokiej dokładności ze zmiennych współczynników i dopuszczalnego poziomu szumu, czyniąc przez to możliwym zmniejszenie liczby bitów. Sposób zmniejszenia liczby bitów w przykładzie z fig. 1A jest przedstawiony w tabeli 2, dla porównania z tabelą 1.

Tabela 2

Nr przedziału pasma krytycznego	1	2	3	4
Dopuszczalny poziom szumu	4 + 2	4 + 2X2	4 + 2X3	4 + 2X4
Długos'ć słów	4	4X2	4X3	4X4
Razem	10	16	22	28
Liczba bitów jako procent liczby bitów w tabeli 1	100	80	73	70

W tabeli 2, w przypadku gdy pasmo krytyczne B jest rozdzielone na pojedynczy blok, wymaganych jest 8 bitów podinformacji, z czego 4 bity dla dopuszczalnego poziomu szumu NL i 4 bity dla długości słowa W. Jednak przy dopuszczalnym poziomie szumu NL, jak przedstawiono, dodane są 2 bity dla kompensacji odchylenia 2dB w dopuszczalnym poziomie szumu, więc wymaganych jest 4 + 2 = 6 bitów dla dopuszczalnego poziomu szumu, skąd wynika, że koniecznych jest ogółem 10 bitów podinformacji. W przypadku gdy pasmo krytyczne B jest rozdzielone między dwa bloki, wymaganych jest ogółem 16 bitów, 4 +(2 X 2)=8 bitów dla dopuszczalnego poziomu szumu NL i 4 X 2 = 8 bitów dla długości słowa W. W przypadku gdy pasmo krytyczne jest rozdzielone między trzy bloki, wymaganych jest ogółem 22 bity, 4 + 2 X 3 = 10 bitów dla dopuszczalnego poziomu szumu NL i 4 X 3 = 12 bitów dla długości słowa W. Jeśli pasmo krytyczne B jest rozdzielone między bloki, jak przedstawiono na fig. 1 A, wymaganych jest ogółem 28 bitów, 4 + (2 X 4) = 12 bitów dla dopuszczalnego poziomu szumu NL i 4 X 4 = 16 bitów dla długości słowa W.

Przy porównaniu liczby bitów wymaganych w przykładach tabeli 1, zapotrzebowanie bitów przedstawione w tabeli 2 jest równe 100% gdy pasmo krytyczne zostało rozdzielone między jeden blok. Jeśli jednak liczba bloków na które pasmo krytyczne zostało rozdzielone wzrasta, to zapotrzebowanie bitów przedstawione w tabeli 2 jest zmniejszone. Zapotrzebowanie bitów jest zmniejszone do 80% gdy pasmo jest rozdzielone między dwa bloki, do 73% w przypadku gdy pasmo jest rozdzielone między trzy bloki i do 70% w przypadku gdy pasmo jest rozdzielone między cztery bloki. Wynika z tego, że sposób według wynalazku jest bardzo efektywny, biorąc pod uwagę zmniejszenie liczby wymaganych bitów podinformacji.

Należy zauważyć, że kwantyzacja długości słów W1 do W4 jest jednorodna, a nie adaptacyjna.

W przykładzie przedstawionym na fig. 1 A, liczba bitów może być alternatywnie zmniejszona przez włączenie w sygnał skomprymowany tylko długości słowa W1 z długości słów W1 do W4 pasma krytycznego B. Inne długości słów W2 do W4 mogą być pominięte. W takim przypadku sygnał skomprymowany obejmuje odpowiednie zmienne współczynniki Fel do Fc4 pasma krytycznego B i długość słowa W1. W przeprowadzanej następnie ekspansji, jeśli sygnał skomprymowany zawiera jedną długość słowa, to pozostałe długości słów W2 do W4 mogą być określone na podstawie odpowiednich zmiennych współczynników Fel do Fc4. Dopuszczalny poziom szumów NL może być określony na podstawie zmiennego współczynnika Fel i długości słowa W1, przy czym pozostałe długości słów W2 do W4 można znaleźć za pomocą dopuszczalnego poziomu szumów NL i zmiennych współczynników Fc2 do Fc4. Tak więc liczba bitów podinformacji może być zmniejszona przez pominięcie długości słów W2 do W4 w sygnale skomprymowanym. To zmniejszenie liczby bitów podinformacji jest pożądane w skomprymowanym sygnale, aby przedstawić trzy długości słów W2 do W4 w pasmie krytycznym B.

Jeśli zastosowane jest zmiennoprzecinkowe przetwarzanie bloków o szerokości pasma odpowiadającej szerokości pasma krytycznego, zmienny współczynnik bloku dla każdego

168 474 pasma krytycznego i długości słowa dla każdego pasma krytycznego powinny być włączone w sygnał skomprymowany. Sposób według wynalazku wykorzystuje zmianę bloku dla bloku b o szerokości pasma większej od szerokości pasma krytycznego i włącza zmienny współczynnik Fc do bloku b i długości słów W1 do W4 do pasm krytycznych B1 do B4 bloku b, jak przedstawiono na fig. 1B, do skomprymowanego sygnału, jako podinformację.

Dopuszczalne poziomy szumów NL1 do NL4 poszczególnych pasm krytycznych B1 do B4 są pominięte w sygnale skomprymowanym. Ponieważ zmienne współczynniki Fc są równe sobie w poszczególnych pasmach krytycznych B 1do B4, to jest możliwe określenie dopuszczalnych poziomów szumów NL1 do NL4 na podstawie jednego zmiennego współczynnika Fc i długości słów W1 do W4 wszystkich pasm krytycznych B1 do B4. Stosownie do tego, przez włączenie w charakterze podinformacji tylko zmiennego współczynnika Fc i długości słów W1 do W4 do sygnału skomprymowanego, jest możliwe dalsze zmniejszenie liczby bitów podinformacji.

Sposób zmniejszania liczby bitów w przykładzie przedstawionym na fig. 1B jest objaśniony na fig. 3, dla porównania tabeli 3 z tabelą 1.

Tabela 3

Liczba pasm krytycznych w bloku	1 pasmo	2 pasma	3 pasma	4 pasma
Zmienny współczynnik	6	6	6	6
Długość słów	4	4X2	4X3	4X4
Razem	10	14	18	22
Liczba bitów jako procent liczby bitów w tabeli 1	100	70	60	55

W tabeli 3 dane wyjaśniono przy pomocy liczby pasm krytycznych w bloku b. W przypadku gdy blok b zawiera jedno pasmo krytyczne, potrzeba razem 10 bitów podinformacji, 6 bitów dla zmiennego współczynnika Fc i 4 bity dla długości słowa W. W przypadku gdy blok b zawiera dwa pasma krytyczne, potrzeba razem 14 bitów, 6 bitów dla zmiennego współczynnika Fc i 4 X 2 = 8 bitów dla długości słowa W. W przypadku trzech pasm krytycznych występujących w bloku b, potrzeba razem 18 bitów, 6 bitów dla zmiennego współczynnika Fc i 4 X 3 = 12 bitów dla długości słowa W. W przypadku czterech pasm krytycznych w bloku b, jak przedstawiono na fig. 1B żądanych jest 22 bity, 6 bitów dla zmiennego współczynnika Fc i 4 X 4 = 16 bitów dla długości słowa W.

Jeśli przyjmie się 100% liczbę bitów w przykładzie z tabeli 2 i dokona się porównania z tabelą 3, to w przypadku przykładu z tabeli 3 liczba przesyłanych bitów wynosi 100% dlajednego pasma i jest taka sama jak w przypadku przykładu z tabeli 1. Jednak liczba wymaganych bitów jest zmniejszona w porównaniu do przykładu z tabeli 1, gdy pasm zawartych w bloku wzrasta. Liczba wymaganych bitów wynosi 70% dla dwóch pasm, 60% dla trzech pasm i 55% dla czterech pasm. Stosownie do tego można zauważyć, że sposób według wynalazku jest bardzo efektywny.

W innym korzystnym rozwiązaniu według wynalazku, gdy zastosowane jest zmiennoprzecinkowe przetwarzanie bloków o szerokości pasma mniejszej niż szerokość pasma krytycznego, zakres dynamiczny dopuszczalnego poziomu szumów jest obniżony. To dodatkowo zmniejsza liczbę bitów wymaganych dla podinformacji.

W etapie S4 procesu przedstawionego na fig. 2, długości słów odpowiadające liczbie bitów przydzielonych do kwantyzacji składowych widmowych w każdym bloku, są określone dla każdego pasma krytycznego i włączone w sygnał skomprymowany. W etapach S5i S6 określony zostaje dopuszczalny poziom szumów dla każdego pasma krytycznego. Zakres dopuszczalnego poziomu szumów jest przesunięty w dół od poziomu sygnału pasma krytycznego, za pomocą określonego poziomu opartego na wielkości maskowania, a przesunięty dopuszczalny poziom szumów jest włączony w sygnał skomprymowany, zamiast zmiennych współczynników. W praktyce użyta jest tablica kwantyzacji, w której są przechowane te wartości, o które zakres dopuszczalnego poziomu szumów jest przesunięty w dół o określony poziom od poziomu sygnału w paśmie krytycznym, co daje w wyniku wartość odpowiadającą dopuszczalnemu

168 474 poziomowi szumów określonemu w etapie S2. Ta wartość jest włączona w sygnał skomprymowany.

Zakres dopuszczalnego poziomu szumów jest przesunięty w dół z tego powodu, że nieefektywnym lub bezużytecznym jest użycie dynamicznego zakresu sygnału do zakresu dopuszczalnego poziomu szumów. Ponieważ dopuszczalny poziom szumów jest określony na podstawie wielkości maskowania, która uwzględnia charakterystykę czułości słuchu człowieka, dopuszczalny poziom szumów będzie zawsze niższy przy określaniu tego poziomu przez poziom sygnału. Na przykład dopuszczalny poziom szumów może być niższy od poziomu sygnału o około 26dB.

Jak stwierdzono, nieefektywne i bezużyteczne jest zastosowanie zakresu dynamicznego sygnału jako zakresu dopuszczalnego poziomu szumów, ponieważ dopuszczalny poziom szumów jest zawsze niższy od poziomu sygnału o ustaloną wartość. Ponadto użycie tego zakresu jest niekorzystne ze względu na liczbę wymaganych bitów. Z tego względu w przykładzie wykonania według wynalazku zastosowano tablicę kwantyzacji, w której zakres dopuszczalnego poziomu szumów jest przesunięty w dół o określony poziom od poziomu sygnału w paśmie krytycznym. W ten sposób dopuszczalny poziom szumów może być reprezentowany przez mniejszą liczbę bitów. Innymi słowy, przesunięcie zakresu dopuszczalnego poziomu szumów pozwala na użycie mniejszej liczby bitów do reprezentowania dopuszczalnego poziomu szumów z taką samą rozdzielczością, jak w przypadku, gdy nie jest wykonywane przesunięcie. Tak więc możliwe jest zmniejszenie liczby wymaganych bitów do reprezentowania dopuszczalnego poziomu szumów.

Zgodnie z wynalazkiem, gdy pasmo krytyczne jest rozdzielone na bloki, a zmienny dla każdego bloku współczynnik i długość słowa dla każdego bloku są włączone w sygnał skomprymowany, dokładność ekspansji może być podwyższona przez włączenie dodatkowych bitów w sygnał skomprymowany, aby wspomóc obliczenie dopuszczalnego poziomu szumów. W procesie ekspansji, różnica między poziomem szumów obliczonym na podstawie zmiennego współczynnika i długością słowa, a dopuszczalnym poziomem szumów, powstaje w wyniku kwantyzacji zmiennego współczynnika i długości słowa. Aby zmniejszyć ten błąd, w sygnał skomprymowany włączone zostają bity oceny, wskazujące różnicę między dopuszczalnym poziomem szumów NL każdego bloku i obliczonym poziomem szumów.

Bity oceny zawierają korzystnie 2 bity i wskazują korekcję obliczonych poziomów szumu poszczególnych bloków w zakresie około +3dB, aby obliczony poziom szumów zbliżyć do dopuszczalnego poziomu szumów. Na przykład, gdy bity oceny są 00, to obliczony poziom szumów jest zwiększony o określoną wielkość. Gdy bity oceny są 01, to obliczony poziom szumów zostaje niezmieniony. Natomiast, gdy bity oceny są 10, to obliczony poziom szumów zostaje zmniejszony o określoną wielkość. Należy zauważyć, że nie stosuje się bitów 11, albo oznaczają one, że obliczony poziom szumów nie jest zmieniony.

W ten sposób obliczony poziom szumów bloku b1 jest określony na podstawie zmiennego współczynnika Fcl i długości słowa W1. Następnie różnica pomiędzy dopuszczalnym poziomem szumów NL i obliczonym poziomem szumów wskazanym przez bity oceny, jest dodana do obliczonego dopuszczalnego poziomu szumów, dzięki czemu jest możliwe dostarczenie poziomu najbliższego do dopuszczalnego poziomu szumów.

Ponieważ obliczone poziomy szumów poszczególnych bloków b 1do b4 nie są przesunięte poza poziom przyległy do obliczonego dopuszczalnego poziomu szumów, to jest możliwe określenie poszczególnych długości słów W2 do W4 z poszczególnych zmiennych współczynników Fc2 do Fc4.

Sposób zmniejszania liczby bitów w przykładzie z fig. 1 jest przedstawiony w tabeli 4, przez porównanie tabeli 4 z tabelą 1.

168 474

Tabela 4

Liczba bloków w paśmie krytycznym	1	2	3	4
Zmienne współczynniki	6	6X2	6X3	6X4
Długość słów	4	4	4	4
Bity oceny	2	2	2	2
Razem	10	18	24	30
Liczba bitów jako procent liczby bitów w tabeli 1	100	90	80	75

W tabeli 4, w przypadku gdy pasmo krytyczne B jest rozdzielone między pojedynczy blok, wymaganych jest razem 10 bitów podinformacji, 6 bitów dla zmiennego współczynnika i 4 bity dla długości słowa. W tym przypadku nie zastosowano bitów oceny. W przypadku gdy pasmo krytyczne B jest rozdzielone między dwa bloki, wymaganych jest ogółem 18 bitów, 6X2=12 bitów dla zmiennego współczynnika, 4 bity dla długości słowa W i 2 bity oceny. W przypadku gdy pasmo krytyczne jest rozdzielone między trzy bloki, wymaganych jest ogółem 24 bity, 6 X 3=18 bitów dla zmiennego współczynnika, 4 bity dla długości słowa W i 2 bity oceny. Ponadto, w przypadku gdy pasmo krytycznejest rozdzielone między cztery bloki (przykład przedstawiony na fig. 1 A), wymaganych jest ogółem 30 bitów, 6 X 4 = 24 bitów dla zmiennego współczynnika, 4 bity dla długości słowa W i 2biiy oceny.

W porównaniu do zapotrzebowania bitowego przykładów przedstawionych w tabeli 1, gdy pasmo krytyczne rozdzielone jest między jeden blok, zapotrzebowanie bitowe przedstawione w tabeli 4 jest takie samo jak w tabeli 1. Ze wzrostem liczby bloków zapotrzebowanie bitowe jest zmniejszone w takim stopniu, że liczba wymaganych bitów wynosi 90% gdy liczba bloków jest 2, 80%, gdy liczba ta jest 3i oraz 75>%o gdy liczba bloków jest 4 i Stosownie do tego można zauważyć, że sposób według wynalazku jest bardzo efektywny w redukcji liczby bitów podinformacji.

Należy zauważyć, że we wspomnianych przykładach zakres dopuszczalnego poziomu szumów NL jest mniejszy od dynamicznego zakresu sygnału. Ponieważ wartość minimalna stosunku sygnału do szumu wynosi około 30dB, to nie ma możliwości aby dopuszczalny poziom szumów mógł być większy niż 30dB poniżej wartości szczytowej dynamicznego zakresu sygnału. Ustalenie takie może być dokonane w kompresorze sygnału.

Przykład konfiguracji kompresora do stosowania sposobu według wynalazku przedstawiony jest na fig. 3. Kompresor określa opisane dopuszczalne poziomy szumów i sygnały kwantyzacji z użyciem liczby bitów, przydzielonych na podstawie dopuszczalnych poziomów szumu.

Na figurze 3 cyfrowy sygnał akustyczny dostarczony w dziedzinie czasowej do zacisku wejściowego 1 zostaje przekazany do układu 11 transformacji ortogonalnej. W tym układzie 11 transformacji ortogonalnej cyfrowy sygnał akustyczny zostaje rozdzielony czasowo między bloki, a każdy z nich jest transformowany na zespół współczynników w dziedzinie częstotliwościowej.

Współczynniki zawierają wartość składowej rzeczywistej Re i wartość składowej urojonej Im. Te współczynniki są doprowadzone do generatora informacji amplitudowo/fazowej 12, gdzie wyprowadzone są jako składowe widmowe, informacja amplitudowa Am i informacja fazowa Ph, z wartości składowej rzeczywistej Re i wartości składowej urojonej Im. Czułość słuchu człowieka jest ogólnie wrażliwa na amplitudę w dziedzinie częstotliwościowej, ale jest względnie niewrażliwa na fazę. W związku z tym, z informacji amplitudowej wykorzystywana jest tylko informacja amplitudowa dla alokacji liczby bitów kwantyzacji.

Zbiór informacji amplitudowych Am, wynikających z ortogonalnej transformacji bloku sygnału wejściowego jest doprowadzony do dzielnika pasma 13. Ten dzielnik pasma 13 dzieli na pasma krytyczne. Pasmo krytyczne jest określane z uwzględnieniem charakterystyki czułości słuchu człowieka. Korzystnie, zakres częstotliwości od 0 do 22 KHz jest podzielony na 25 pasm krytycznych o szerokości pasma, która zwiększa się wraz ze wzrostem częstotliwości pasma. Czułość słuchu człowieka ma taką charakterystykę, jak filtr środkowo-przepustowy, który określa zbiór pasm odpowiadających pasmom krytycznym.

168 474

Informacja amplitudowa Am rozdzielona między pasma krytyczne jest doprowadzona z dzielnika pasm 13 do układu obliczania energii 14. Układ obliczania energii 14 oblicza energię w każdym paśmie krytycznym przez sumowanie wartości szczytowych, średnich lub energii informacji amplitudowej Am w każdym paśmie. Wyjście układu obliczania energii to znaczy widmo energii każdego pasma jest ogólnie zwane widmem percepcyjnym. Przykład widma percepcyjnego SB jest przedstawiony na fig. 4. Dla uproszczenia, na fig. 4 przedstawiono tylko dwanaście pasm krytycznych B1 do B12.

Efekt maskowania widma percepcyjnego SB jest określony przez stosowanie przetwarzania splotu do widma percepcyjnego SB z użyciem zadanej funkcji ważącej. Dla realizacji tego, wyjście układu obliczania energii 14, to znaczy poszczególne wartości widma percepcyjnego SB, są doprowadzone do filtru 15. Układ filtru 15 zawiera korzystnie wiele elementów opóźniających dla sekwencyjnego opóźniania danych wejściowych, wiele układów mnożenia, na przykład 25 układów mnożenia odpowiadających poszczególnym pasmom, dla mnożenia sygnałów wyjściowych tych elementów opóźniających przez współczynnik ważący, jak również sumator sumy ogólnej wyjść układów mnożenia.

W poszczególnych układach mnożenia filtru 15 przeprowadzana jest operacja mnożenia. Na przykład w układzie mnożenia M odpowiadającym dowolnemu pasmu, sygnały wyjściowe poszczególnych elementów opóźniających są mnożone przez 0,000086, 0,0019, 0,15, 1, 0,4, 0,06,0,007, odpowiednio przy układach mnożenia M-3, M-2, M-1, M, M+1, M+2, M+3. M jest dowolną liczbą całkowitą od 1 do 25. Dzięki temu przetwarzaniu splatającemu widma percepcyjnego SB, brana jest pod uwagę ogólna suma części zaznaczonych liniami przerywanymi na fig. 4.

Maskowanie odnosi się do zjawiska psychoakustycznego, dzięki któremu sygnał jest maskowany przez inny sygnał i nie jest słyszalny. Efekt maskowania jest efektem występującym zarówno w dziedzinie czasowej jak i częstotliwościowej. Dzięki efektowi maskowania, nawet jeśli występuje sygnał szumu w części poddanej maskowaniu, to taki szum nie będzie słyszalny. Z tego względu, dla rzeczywistego sygnału akustycznego, szum w części poddanej maskowaniu może być rozważany jako szum dopuszczalny.

Wyjście filtru 15 jest połączone z układem odejmującym 16. Układ odejmujący 16 określa poziom a w obszarze splotu odpowiadającego dopuszczalnemu poziomowi szumów. Poziom a odpowiadający dopuszczalnemu poziomowi szumów jest poziomem odpowiadającym dopuszczalnemu poziomowi szumów każdego pasma krytycznego po przeprowadzeniu procesu rozplatania. Ta dopuszczalna funkcja, która reprezentuje poziom maskowania, dla określenia poziomu a jest doprowadzona do układu odejmującego 16 z generatora funkcji 29. Wzrost lub spadek tej funkcji dopuszczalnej reguluje poziom a.

Gdy numerem danego pasma krytycznego jest 1, to poziom a odpowiadający dopuszczalnemu poziomowi szumów jest określony za pomocą następującego równania:

α = S - (n - ai) gdzie n i a są stałymi, S jest intensywnością przetworzonego widma percepcyjnego z wyznaczaniem splotu. W powyższym równaniu (n - ai) reprezentuje funkcję dopuszczalną. W przedstawionym przykładzie n jest ustalone na 38 i a jest ustalone na 1. Zapewnia to akceptowalną jakość dźwięku. Poziom a zostaje następnie doprowadzony do dzielnika 17, w którym następuje proces rozplatania do poziomu a w obszarze splotu. Przeprowadzając proces rozplatania zapewnia się widmo maskowania na podstawie poziomu a. Widmo maskowania staje się dopuszczalnym widmem szumów. Należy zauważyć, że chociaż proces rozplatania wymaga złożonego działania, to w tym przykładzie zastosowano prosty dzielnik 17 dla przeprowadzenia tego procesu rozplatania.

Widmo maskowania zostaje doprowadzone do układu odejmującego 19, poprzez układ syntezy 18. Sygnał wyjściowy układu obliczania 14 poziomów energetycznych, a więc widmo percepcyjne SB, jest dostarczone do układu odejmującego 19 poprzez układ opóźniający 21. W tym układzie odejmującym 19 wykonywane jest działanie odejmowania pomiędzy widmem maskowania i widmem percepcyjnym Sb. Jak przedstawiono na fig. 5, część widma percepcyjnego SB, którego poziom jest niższy od poziomu widma maskowania MS jest poddana maskowaniu.

168 474

Wyjście układu odejmującego 19 jest dołączone do pamięci stałej 30, poprzez korektor dopuszczalnego poziomu szumu 20. W pamięci stałej 30 przechowuje się liczby przydzielonych bitów do kwantyzacji informacji amplitudowej Am. Pamięć stała 30 daje w wyniku przydział liczby bitów odpowiadający wyjściu układu odejmującego 19, to znaczy różnicy poziomów energetycznych, pomiędzy poszczególnymi pasmami i poziomem maskowania. W kwantyzerze 24 przeprowadzana jest kwantyzacja informacji amplitudowej Am z użyciem liczby przydzielonych bitów. Wyjście kwantyzera 24 jest dołączone do zacisku wyjściowego 2.

Układ opóźniający 21 zapewnia opóźnienie widma percepcyjnego SB z układu obliczania 14 poziomów energetycznych, aby uwzględnić opóźnienia poszczególnych układów poprzedzających układ odejmujący 19. Ponadto, aby zapewnić opóźnienie informacji amplitudowej Am, urządzenie zawiera układ opóźniający 23, w wyniku czego uwzględnione zostają opóźnienia w poszczególnych układach poprzedzających układ kwantyzowania 24.

Układ syntezy 18 może dodatkowo syntezować widmo maskowania MS z danymi wskazującymi minimalną słyszalność, której odpowiada poziom RC, jak przedstawiono na fig. 6. Wykres poziomu minimalnej słyszalności jest innym rodzajem charakterystyki czułości słuchu człowieka i jest ustalony przez generator krzywej minimalnej słyszalności 22. Zgodnie z przebiegiem tej krzywej jeśli rzeczywisty poziom szumu znajduje się poniżej poziomu tej krzywej, to szum nie może być słyszalny. Dla określonego kwantowania krzywa minimalnej słyszalności zmienia się w zależności od poziomu głośności w czasie odtwarzania sygnału. Ponieważ jednak nie ma tak dużych zmian w sposobie w jaki wprowadzana jest muzyka, na przykład dynamiczny zakres 16 bitowy w rzeczywistych układach cyfrowych, to jeśli przyjąć szum kwantowania, na przykład pasma częstotliwościowego najbardziej łatwego do usłyszenia dla ucha w sąsiedztwie 4 KHz, to szum kwantowania mniejszy od poziomu krzywej minimalnej słyszalności jest uważany jako niesłyszalny w innych pasmach częstotliwości. Stosownie do tego, przy założeniu, że poziom szumu, na przykład w otoczeniu 4 KHz odpowiadający długości słowa dla tego układu nie jest słyszalny, to dopuszczalny poziom szumu jest dostarczony za pomocą syntezowania krzywej minimalnej słyszalności RC i widma maskowania MS. Wynikowy dopuszczalny poziom szumu dla każdego pasma krytycznego może mieścić się aż do poziomu zaznaczonego jako zakreskowana skośnymi liniami część na fig. 6. W tym przykładzie wykonania poziom krzywej minimalnej słyszalności dla częstotliwości 4 KHz odpowiada poziomowi minimalnemu, odpowiadającemu kwantowaniu z użyciem na przykład 20 bitów. Na fig. 6 przedstawione jest również widmo sygnału SS.

Układ korekcji 20 dopuszczalnego poziomu szumów koryguje dopuszczalny poziom szumów z układu odejmującego 19, na podstawie informacji wartości korekcji określającej krzywą równej głośności, wprowadzonej do układu korekcji dopuszczalnego poziomu szumu przez układ określający wartość poprawki 28, z uwzględnieniem krzywej równej głośności.

Krzywa równej głośności jest innym rodzajem charakterystyki czułości słuchu człowieka. Krzywa ta jest otrzymana za pomocą określenia poziomów ciśnień akustycznych dźwięku przy różnych częstotliwościach, który może być słyszany przy tej samej intensywności jak dla dźwięku czystego przy częstotliwości 1 KHz. Krzywa równej głośności jest podobna do krzywej minimalnej słyszalności RC, przedstawionej na fig. 6. Na krzywej równej głośności, na przykład w sąsiedztwie 4 KHz, nawet jeśli ciśnienie akustyczne jest obniżone o 8 do 10 dB od ciśnienia przy 1 KHz, to dźwięk w tym czasie jest słyszany przy tej samej intensywności dźwięku przy 1 KHz. Jednocześnie, dźwięk w sąsiedztwie 50 Hz, jeśli ciśnienie akustyczne jest wyższe od ciśnienia akustycznego w sąsiedztwie 1 KHz o około 15 dB, to dźwięk nie jest słyszalny przy tym samym ciśnieniu akustycznym. Z tego względu, celowym jest dopuszczenie szumu ponad poziom krzywej minimalnej słyszalności, aby mieć charakterystykę częstotliwościową daną przez krzywą odpowiadającą krzywej równej głośności. Można zauważyć, że jest to dostosowanie do charakterystyki czułości słuchu człowieka dla poprawienia dopuszczalnego poziomu szumu z uwzględnieniem krzywej równej głośności.

W alternatywnym przykładzie wykonania w którym pominięte jest przetwarzanie syntezowania krzywej minimalnej słyszalności, generator krzywej minimalnej słyszalności 22 i układ syntezy 18 stają się zbędne. Sygnał wyjściowy układu odejmującego 16 jest poddany rozplataniu w dzielniku 17 i jest następnie doprowadzony bezpośrednio do układu odejmującego 19.

168 474

Bi B2 B3 B4 Bs B6 B7 Be B« B10 Bu B12

INTENSYWNOŚĆ

'S S i

CZĘSTOTLIWOŚĆ

FIG.6

FIG.7

168 474

INTENSYWNOŚĆ INTENSYWNOŚĆ

FIG.4

Bi B2 B3 B4 Bs B6 B7 Be Be BlO Bi 1 Bl2 CZĘSTOTLIWOŚĆ

FIG.5

168 474

FIG.2

FIG.3

168 474

FIG.1A b


	W1	W2	W3	W4
NL3
NL2
NL4
NL1

B1 B2 B3 B4

FIG.1B

Departament Wydawnictw UP RP. Nakład 90 egz. Cena 1,50 zł

Claims

Zastrzeżenia patentowe

1. Sposób dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego na zasadzie przyporządkowania bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku, znamienny tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe w pasmach krytycznych między bloki o szerokości pasma mniejszej od pasma krytycznego, następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków i wyznacza się zmienny współczynnik dla każdego bloku, składowe widmowe w każdym bloku poddaje się kwantyzacji z użyciem liczby bitów przyporządkowanych do bloków w zależności od dopuszczalnego poziomu szumu dla pasma krytycznego, przy czym liczba alokowanych bitów wskazana jest przez długość słowa oraz włącza się w sygnał skomprymowany długość słowa dla każdego bloku, a w miejsce zmiennego dla każdego bloku współczynnika, włącza się dopuszczalny poziom szumów dla pasma krytycznego.
2. Sposób według zastrz. 1, znamienny tym, że składowe widmowe z cyfrowego sygnału wejściowego otrzymuje się za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego z użyciem dyskretnej transformacji kosinusoidalnej (DCT).
3. Sposób według zastrz. 1, znamienny tym, że składowe widmowe w zakresie częstotliwości od 0 Hz do 22kHz rozdziela się między 25 pasm krytycznych o szerokościach wzrastających w miarę wzrostu częstotliwości pasma krytycznego.
4. Sposób według zastrz. 1, znamienny tym, że w czasie kwantyzacji składowych widmowych w każdym bloku oblicza się dopuszczalny poziom szumu na podstawie składowych widmowych, oraz oblicza się amplitudy dla każdego bloku na podstawie składowych widmowych zawartych w bloku, a w czasie kwantyzacji składowych widmowych w każdym bloku, liczbę bitów przydziela się w zależności od różnicy poziomów między amplitudą bloku i dopuszczalnym poziomem szumów.
5. Sposób według zastrz. 1, znamienny tym, że w wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego bloku oblicza się amplitudy przez sumowanie informacji amplitudowych składowych widmowych w bloku.
6. Sposób według zastrz. 4, znamienny tym, że w czasie obliczanie dopuszczalnego poziomu szumów oblicza się amplitudę dla każdego pasma krytycznego przez sumowanie informacji odpowiadających amplitudzie składowych widmowych w każdym odpowiednim paśmie krytycznym oraz wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.
7. Sposób według zastrz. 1, znamienny tym, że w czasie włączania dopuszczalny poziom szumu włączony w sygnał skomprymowany poddaje się kwantyzacji zgrubnej, a do każdego bloku sygnału skomprymowanego włącza się bity dodatkowe, i zapewnia się dokładną kwantyzację dopuszczalnego poziomu szumu.
8. Sposób według zastrz. 7, znamienny tym, że dopuszczalny poziom szumu włączony w sygnał skomprymowany poddaje się kwantyzacji zgrubnej z użyciem pierwszej liczby bitów, a do każdego bloku sygnału skomprymowanego włącza się drugą liczbę bitów dodatkowych i zapewnia się dokładną kwantyzację dopuszczalnego poziomu szumu.
9. Sposób według zastrz. 8, znamienny tym, że jako pierwszą liczbę bitów stosuje się cztery, a jako drugą liczbę bitów stosuje się dwa.
10. Sposób według zastrz. 7, znamienny tym, że jako kwantyzację zgrubną i kwantyzację dokładną dopuszczalnego poziomu szumów stosuje się kwantyzację logarytmiczną.

168 474
11. Sposób dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego, na zasadzie przyporządkowania bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku, znamienny tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe między bloki o szerokości pasma odpowiadaj ącej wielu pasmom krytycznym, następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków i wyznacza się współczynnik zmienny oraz poddaje się kwantyzacji składowe widmowe w każdym paśmie krytycznym z użyciem adaptacyjnie przydzielanej liczby bitów.
12. Sposób według zastrz. 11, znamienny tym, że składowe widmowe otrzymuje się z cyfrowego sygnału wejściowego za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego z użyciem dyskretnej transformacji kosinusoidalnej (DCT).
13. Sposób według zastrz. 11, znamienny tym, że składowe widmowe w zakresie częstotliwości od 0 Hz do 22 kHz rozdziela się między 25 pasm krytycznych o szerokościach wzrastających w miarę wzrostu częstotliwości pasma krytycznego.
14. Sposób według zastrz. 13, znamienny tym, że przydziela się składowe widmowe do bloku o szerokości pasma odpowiadającej wielu pasmom krytycznym, przy czym składowe widmowe w bloku znajdują się w pobliżu dolnych częstotliwości zakresu częstotliwościowego.
15. Sposób według zastrz. 11, znamienny tym, że w czasie kwantyzacji składowych widmowych w każdym paśmie krytycznym, z użyciem adaptacyjnie przydzielanej liczby bitów, tę adaptacyjną liczbę bitów określa się przez długość słowa, a ponadto włącza się w sygnał skomprymowany współczynnik zmienny dla bloku, jako wspólny współczynnik zmienny dla pasm krytycznych bloku, i długość słowa dla każdego pasma krytycznego zawartego bloku.
16. Sposób według zastrz. 15, znamienny tym, że w czasie kwantyzacji składowych widmowych oblicza się amplitudę dla każdego bloku na podstawie składowych widmowych zawartych w paśmie krytycznym, oblicza się dopuszczalny poziom szumu dla każdego pasma krytycznego na podstawie składowych widmowych, oraz oblicza się adaptacyjnie przydzielaną liczbę bitów każdego z pasm krytycznych na podstawie różnicy poziomów między amplitudą pasma krytycznego i dopuszczalnym poziomem szumów dla pasma krytycznego.
17. Sposób według zastrz. 15, znamienny tym, że w wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego pasma krytycznego oblicza się amplitudy przez sumowanie informacji amplitudowych składowych widmowych w pasmie krytycznym.
18. Sposób według zastrz. 17, znamienny tym, że w czasie kwantyzacji składowych widmowych wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.
19. Sposób dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego, na zasadzie przyporządkowania bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku, znamienny tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe w pasmach krytycznych między bloki o szerokości pasma mniejszej od pasma krytycznego, następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków dla wyznaczenia zmiennego współczynnika dla każdego bloku, oraz poddaje się kwantyzacji składowe widmowe w każdym bloku, z użyciem określonej liczby bitów adaptacyjnie przyporządkowanych do bloków.
20. Sposób według zastrz. 19, znamienny tym, że składowe widmowe otrzymuje się z cyfrowego sygnału wejściowego za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego z użyciem dyskretnej transformacji kosinusoidalnej (DCT).
21. Sposób według zastrz. 19, znamienny tym, że składowe widmowe w zakresie częstotliwości od 0 Hz do 22 kHz rozdziela się między 25 pasm krytycznych o szerokościach wzrastających w miarę wzrostu częstotliwości pasma krytycznego.
22. Sposób według zastrz. 21, znamienny tym, że przydziela się składowe widmowe do bloków o szerokościach pasma mniejszej od pasma krytycznego, a pasmo krytyczne znajduje się w pobliżu górnych częstotliwości zakresu częstotliwościowego.

168 474
23. Sposób według zastrz. 19, znamienny tym, że w czasie kwantyzacji składowych widmowych w każdym bloku, z użyciem adaptacyjnie przydzielanej liczby bitów, tę adaptacyjną liczbę bitów określa się przez długość słowa, a ponadto włącza się w sygnał skomprymowany długość słowa dla jednego z bloków w pasmie krytycznym jako wspólną długość słowa dla bloków w pasmie krytycznym.
24. Sposób według zastrz. 23, znamienny tym, że w czasie kwantyzacji składowych widmowych w każdym bloku oblicza się dopuszczalny poziom szumu dla każdego pasma krytycznego na podstawie składowych widmowych, oblicza się amplitudę dla każdego bloku na podstawie składowych widmowych zawartych w bloku, oraz oblicza się adaptacyjnie przydzielaną liczbę bitów dla każdego bloku na podstawie różnicy poziomów między amplitudą bloku i dopuszczalnym poziomem szumów.
25. Sposób według zastrz. 24, znamienny tym, że w wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego bloku oblicza się amplitudy przez sumowanie informacji amplitudowych składowych widmowych w bloku.
26. Sposób według zastrz. 25, znamienny tym, że w czasie obliczania dopuszczalnego poziomu szumów oblicza się amplitudę dla każdego pasma krytycznego przez sumowanie informacji odpowiadających amplitudzie składowych widmowych w każdym odpowiednim pasmie krytycznym, oraz wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.
27. Sposób dokonywania kompresji cyfrowego sygnału wejściowego dla otrzymania sygnału skomprymowanego, na zasadzie przyporządkowania bitów, w którym rozdziela się sygnał na składowe między bloki i adaptacyjnie przydziela się liczbę bitów kwantyzacji do każdego bloku, znamienny tym, że cyfrowy sygnał wejściowy przekształca się na składowe widmowe, rozdziela się składowe widmowe na pasma krytyczne, rozdziela się składowe widmowe w pasmach krytycznych między bloki o szerokości pasma mniejszej od pasma krytycznego, następnie stosuje się zmiennoprzecinkowe przetwarzanie bloków dla wyznaczenia zmiennego współczynnika dla każdego bloku, poddaje się kwantyzacji składowe widmowe w każdym bloku, z użyciem liczby bitów przyporządkowanych do bloków w zależności od dopuszczalnego poziomu szumu dla pasma krytycznego, przy czym liczbę alokowanych bitów określa się przez długość słowa, oraz w sygnał skomprymowany w miejsce zmiennego współczynnika dla każdego bloku, włącza się dopuszczalny poziom szumów w zakresie przesuniętym w dół względem poziomu o określoną wartość, od zakresu poziomu sygnału dla pasma krytycznego.
28. Sposób według zastrz. 27, znamienny tym, że składowe widmowe otrzymuje się z cyfrowego sygnału wejściowego za pomocą ortogonalnej transformacji cyfrowego sygnału wejściowego z użyciem dyskretnej transformacji kosinusoidalnej (DCT).
29. Sposób według zastrz. 27, znamienny tym, że składowe widmowe w zakresie częstotliwości od 0 Hz do 22 kHz rozdziela się między 25 pasm krytycznych o szerokościach wzrastających w miarę wzrostu częstotliwości pasma krytycznego.
30. Sposób według zastrz. 27, znamienny tym, że w czasie kwantyzacji składowych widmowych w każdym bloku oblicza się dopuszczalny poziom szumu na podstawie składowych widmowych, oraz oblicza się amplitudę dla każdego bloku na podstawie składowych widmowych zawartych w bloku, a ponadto w czasie kwantyzacji składowych widmowych w każdym bloku, liczbę bitów przydziela się w zależności od różnicy poziomów między amplitudą bloku i dopuszczalnym poziomem szumów.
31. Sposób według zastrz. 30, znamienny tym, że w wyniku przekształcania cyfrowego sygnału wejściowego na składowe widmowe wytwarza się składowe widmowe zawierające informację amplitudową i informację fazową, a w czasie obliczania amplitudy dla każdego bloku oblicza się amplitudę przez sumowanie informacji amplitudowych składowych widmowych w bloku.
32. Sposób według zastrz. 31, znamienny tym, że w czasie obliczania dopuszczalnego poziomu szumów oblicza się amplitudę dla każdego pasma krytycznego przez sumowanie informacji odpowiadających amplitudzie składowych widmowych w każdym odpowiednim

168 474 pasmie krytycznym, oraz wyznacza się splot amplitudy każdego z pasm krytycznych z zadaną funkcją ważącą dla uwzględnienia maskowania.