PL208846B1

PL208846B1 - Sposób przetwarzania sygnału akustycznego w urządzeniu elektronicznym i sposób generowania odtworzonego sygnału akustycznego w urządzeniu elektronicznym

Info

Publication number: PL208846B1
Application number: PL371410A
Authority: PL
Inventors: Michael Mead Truman; Mark Stuart Vinton
Original assignee: Dolby Lab Licensing Corp
Priority date: 2002-03-28
Filing date: 2003-03-21
Publication date: 2011-06-30
Also published as: US9947328B2; KR20040101227A; US10529347B2; US20180005639A1; US20150243295A1; SG2013057666A; US10269362B2; EP1488414A1; CA2475460C; HK1114233A1; CA2475460A1; US20170206909A1; US9412388B1; US20150279379A1; CN101093670A; SG10201710911VA; PL371410A1; US20160232904A1; SG173224A1; KR101005731B1

Description

Przedmiotem wynalazku jest sposób przetwarzania sygnału akustycznego w urządzeniu elektronicznym i sposób generowania odtworzonego sygnału akustycznego w urządzeniu elektronicznym, zwłaszcza przy przesyłaniu i zapisywaniu sygnałów akustycznych, ograniczając ilość informacji potrzebnych do przesłania lub zapisu danego sygnału akustycznego, przy zachowaniu danego poziomu jakości odbieranego sygnału wyjściowego.

Znanych jest wiele systemów telekomunikacyjnych, napotykających problemy związane z tym, że wymagania dotyczące pojemności informacyjnej przy przesyłaniu i zapisywaniu informacji często przewyższają istniejące możliwości. W związku z tym ważne jest ograniczanie ilości informacji potrzebnej przy przesyłaniu lub zapisywaniu sygnału akustycznego, odbieranego przez ludzi, bez pogarszania jego jakości. Wymagana jest przy tym poprawa jakości sygnału wyjściowego dla danej szerokości pasma lub pojemności pamięci.

W znanych sposobach przetwarzania sygnał u akustycznego w urzą dzeniu elektronicznym, przy przesyłaniu i zapisywaniu sygnałów akustycznych należy zmniejszyć wymagania dotyczące pojemności informacji i należy zapewnić określony poziom percepcyjnej jakości sygnału wyjściowego. Te dwa wymagania są ze sobą sprzeczne, ponieważ zmniejszenie jakości przesyłanych informacji może spowodować pogorszenie percepcyjnej jakości sygnału wyjściowego. Obiektywne ograniczenia, takie jak prędkość transmisji danych, są zwykle określane przez sam system telekomunikacyjny, a subiektywne wymagania percepcyjne są zwykle dyktowane przez zastosowanie.

Znane sposoby zmniejszania wymagań dotyczących ilości informacji polegają na przesyłaniu lub zapisywaniu tylko wybranej części sygnału wejściowego, a reszta zostaje odrzucona. Korzystnie odrzucana jest tylko ta część sygnału, która jest uważana albo za redundancyjną albo za nieważną percepcyjnie. Jeżeli potrzebne jest dalsze zmniejszanie, korzystnie odrzucana jest tylko ta część sygnału, która jest uważana za mającą najmniejsze znaczenie dla percepcji.

W zastosowaniach dotyczących mowy, dla których ważniejsza jest zrozumiałość niż wierność, takich jak kodowanie mowy, może być przenoszona lub zapisywana tylko część sygnału nazywana tutaj sygnałem pasma podstawowego i zawierająca tylko percepcyjnie najważniejsze części widma częstotliwości sygnału. Odbiornik może odtwarzać pominiętą część sygnału mowy z informacji zawartej w sygnale pasma podstawowego. Odtworzony sygnał zwykle nie jest percepcyjnie identyczny z sygnał em pierwotnym, lecz w wielu zastosowaniach wystarczy odtwarzanie przybliż one. Z drugiej strony, zastosowania przeznaczone do osiągnięcia wysokiego stopnia wierności, takie jak zastosowania dotyczące muzyki wysokiej jakości, wymagają zwykle wyższej jakości sygnału wyjściowego. Aby otrzymać sygnał wyjściowy o wyższej jakości, należy zwykle przesyłać większą ilość informacji lub wykorzystywać bardziej skomplikowany sposób wytwarzania sygnału wyjściowego.

Znana jest technika stosowana przy dekodowaniu sygnału mowy, zwana odtwarzaniem wysokiej częstotliwości HFR, w której jest przesyłany lub zapisywany sygnał pasma podstawowego, zawierający tylko składowe o niskiej częstotliwości. Odbiornik odtwarza pominięte składowe o wysokiej częstotliwości na podstawie zawartości odbieranego sygnału pasma podstawowego i łączy sygnał pasma podstawowego z odtworzonymi składowymi o wysokiej częstotliwości, aby wytworzyć sygnał wyjściowy. Chociaż odtworzone składowe o wysokiej częstotliwości zwykle nie są identyczne ze składowymi o wysokiej czę stotliwoś ci w sygnale pierwotnym, technika ta moż e zapewniać sygnał wyjś ciowy, który jest bardziej zadowalający niż w innych technikach, które nie stosują odtwarzania wysokich częstotliwości. Znane są trzy typowe techniki odtwarzania wysokich częstotliwości: składanie widma, przesuwanie widma i prostowanie, które zostały opisane w publikacji pod tytułem „High-Frequency Regeneration in Speech Coding Systems (Regeneracja wysokoczęstotliwościowa w systemach kodowania mowy), Makhoul i Berouti; ICASSP 1979 IEEE International Conf. on Acoust, Speech and Signal Proc, 2-4 kwietnia, 1979. Techniki te są zwykle niewłaściwe dla systemów odtwarzania o wysokiej jakości, takich jak używane przy muzyce wysokiej jakości. Składanie widma i przesuwanie widma może powodować wytwarzanie niepożądanych tonów tła, a prostowanie ma tendencję do wytwarzania składowych, które są odbierane jako ostre dźwięki. W wielu przypadkach, w których techniki te dawały niezadowalające wyniki, stosowano je w koderach mowy o ograniczonym paśmie, gdzie odtwarzanie wysokich częstotliwości było ograniczane do przesuwania składowych poniżej 5 kHz.

Stosowanie znanych technik odtwarzania wysokich częstotliwości powoduje pierwszy problem związany z właściwościami dźwięku i szumu w sygnałach i drugi problem związany z czasowym kształtem lub obwiednią odtwarzanych sygnałów. Wiele naturalnych sygnałów zawiera składową

PL 208 846 B1 szumu, która wzrasta w funkcji częstotliwości. W znanych technikach odtwarzania wysokich częstotliwości składowe o wysokiej częstotliwości są odtwarzane z sygnału pasma podstawowego, ale nie odtwarzają prawidłowej mieszaniny składowych podobnych do dźwięku i składowych podobnych do szumu w odtwarzanym sygnale przy wyższych częstotliwościach. Odtworzony sygnał często zawiera wyraźne brzęczenie wysokoczęstotliwościowe, przypisywane podstawieniu, przez składowe podobne do dźwięku w paśmie podstawowym, pierwotnych składowych o wysokiej częstotliwości, bardziej podobnych do szumu. Ponadto w znanych technikach odtwarzania wysokiej częstotliwości składowe widmowe nie są odtwarzane w taki sposób, że obwiednia czasowa odtworzonego sygnału zachowuje lub jest przynajmniej podobna do czasowej obwiedni sygnału pierwotnego. Znane techniki są albo specyficzne dla mowy, opierając się na właściwościach mowy, które nie są właściwe w przypadku muzyki, albo dla innych postaci sygnału akustycznego lub też wymagają wielkich mocy obliczeniowych, których nie można w sposób ekonomiczny zrealizować.

Według wynalazku sposób przetwarzania sygnału akustycznego charakteryzuje się tym, że dokonuje się jednego lub wielu przekształceń sygnału akustycznego w domenie czasowej na sygnał w domenie częstotliwościowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej, zawierającego pewne, lecz nie wszystkie, składowe widmowe sygnału akustycznego, analizuje się sygnał akustyczny dla obliczenia ocenianej obwiedni widmowej przynajmniej części sygnału akustycznego, oblicza się ocenianą obwiednię czasową przynajmniej części sygnału akustycznego oraz łączy się dane przedstawiające reprezentację sygnału pasma podstawowego w domenie częstotliwościowej, ocenianą obwiednię czasową przynajmniej części sygnału akustycznego i ocenianą obwiednię widmową w sygnał wyjś ciowy wła ś ciwy do przesył ania lub zapisywania.

Korzystnie zmienia się długość jednego lub wielu przekształceń domen czasowych na domeny częstotliwościowe.

Korzystnie dokonuje się transformacji analizy kasowania z aliasowaniem w domenie czasowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej.

Korzystnie dokonuje się przekształcenia sygnału akustycznego w domenie czasowej na sygnał w domenie częstotliwoś ciowej dla otrzymania reprezentacji sygnał u akustycznego w domenie czę stotliwościowej oraz filtruje się reprezentację sygnału akustycznego w domenie częstotliwościowej dla wydzielenia części reprezentacji sygnału akustycznego w domenie częstotliwościowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej.

Korzystnie filtruje się za pomocą zespołu filtrów analizy sygnał akustyczny dla otrzymania wielu sygnałów podpasma, reprezentujących sygnał akustyczny, filtruje się za pomocą pierwszego zespołu filtrów analizy pierwszą grupę jednego lub wielu sygnałów podpasma, które zawierają pewne, lecz nie wszystkie, z wielu sygnałów podpasma dla otrzymania reprezentacji sygnału pasma podstawowego w domenie czę stotliwo ś ciowej i filtruje się za pomocą drugiego zespoł u filtrów analizy drugą grupę jednego lub wielu sygnałów pasma podstawowego, które nie są zawarte w pierwszej grupie sygnałów podpasma oraz analizuje się uzyskany sygnał dla otrzymania ocenianej obwiedni widmowej sygnału resztkowego.

Korzystnie modyfikuje się drugą grupę sygnałów podpasma zgodnie z odwrotnością ocenianej obwiedni czasowej drugiej grupy sygnałów podpasma dla otrzymania czasowo spłaszczonej reprezentacji drugiej grupy sygnałów podpasma, przy czym oceniana obwiednia czasowa przynajmniej części sygnału akustycznego zawiera ocenianą obwiednię czasową drugiej grupy sygnałów podpasma i dokonuje się jednego lub wielu przekształceń domeny czasowej na domenę częstotliwościową w czasowo spłaszczonej reprezentacji drugiej grupy sygnałów podpasma dla otrzymania ocenianej obwiedni widmowej sygnału resztkowego.

Korzystnie modyfikuje się pierwszą grupę sygnałów podpasma zgodnie z odwrotnością ocenianej obwiedni czasowej pierwszej grupy sygnałów podpasma dla otrzymania czasowo spłaszczonej reprezentacji pierwszej grupy sygnałów podpasma, przy czym oceniana obwiednia czasowa przynajmniej części sygnału akustycznego zawiera ocenianą obwiednię czasową pierwszej grupy sygnałów podpasma i dokonuje się jednego lub wielu przekształceń domeny czasowej na domenę częstotliwościową w czasowo spłaszczonej reprezentacji pierwszej grupy sygnałów podpasma dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej.

Korzystnie uzyskuje się parametr mieszania szumu z czasowo spłaszczonej reprezentacji drugiej grupy sygnałów podpasma i łączy się dane w sygnał wyjściowy, który reprezentuje parametr mieszania szumu.

PL 208 846 B1

Korzystnie analizuje się reprezentację w domenie częstotliwościowej przynajmniej sygnału resztkowego dla otrzymania ocenianej obwiedni czasowej.

Korzystnie oblicza się czasowo spłaszczoną reprezentację przynajmniej części sygnału akustycznego w odpowiedzi na odwrotność ocenianej obwiedni czasowej i oblicza się ocenianą obwiednię widmową z czasowo spłaszczonej reprezentacji.

Według wynalazku sposób generowania odtworzonego sygnału akustycznego charakteryzuje się tym, że odbiera się sygnał zawierający dane reprezentujące sygnał pasma podstawowego, otrzymywany z sygnału akustycznego, ocenianą obwiednię widmową i ocenianą obwiednię czasową, wydziela się reprezentację sygnału pasma podstawowego w domenie częstotliwościowej z danych, przetwarza się składowe widmowe pasma podstawowego częstotliwościowo dla otrzymania odtwarzanego sygnału zawierającego odtwarzane składowe widmowe i dokonuje się jednego lub wielu przekształceń domeny częstotliwościowej na domenę czasową w kombinacji składowych widmowych odtwarzanego sygnału ze składowymi widmowymi reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej dla otrzymania reprezentacji odtworzonego sygnału w domenie czasowej, przy czym uzyskuje się reprezentację w domenie czasowej o przebiegu czasowym regulowanym w odpowiedzi na dane reprezentujące ocenianą obwiednię czasową przez modyfikację składowych widmowych w odpowiedzi na dane reprezentujące ocenianą obwiednię czasową albo przez modyfikację reprezentacji w domenie czasowej w odpowiedzi na dane reprezentują ce ocenianą obwiednię czasową .

Korzystnie zmienia się długość jednego lub wielu przekształceń domeny częstotliwościowej na domenę czasową.

Korzystnie dokonuje się transformacji syntezy kasowania z aliasowaniem w domenie czasowej dla otrzymania reprezentacji odtworzonego sygnału w domenie czasowej.

Korzystnie dostosowuje się przetwarzanie składowych widmowych przez zmianę tego, którego składowe widmowe przesuwa się, lub przez zmianę wartości częstotliwości, o którą składowe widmowe przesuwa się.

Korzystnie odbiera się dane w sygnale, który reprezentuje parametr mieszania szumu, uzyskiwany z miary zawartości szumu w sygnale akustycznym, generuje się sygnał szumu mający składowe widmowe, które zmieniają się zasadniczo odwrotnie do częstotliwości i modyfikuje się odtwarzany sygnał przez regulację amplitud odtwarzanych składowych widmowych zgodnie z ocenianą obwiednią widmową i parametrem mieszania szumu oraz łączy się modyfikowany odtwarzany sygnał z sygnałem szumu.

Korzystnie łączy się składowe widmowe odtwarzanego sygnału i składowe widmowe reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej dla otrzymania odtworzonego sygnału i filtruje się za pomocą zespołu filtrów syntezy odtworzony sygnał dla otrzymania reprezentacji odtworzonego sygnału w domenie czasowej.

Korzystnie filtruje się za pomocą pierwszego zespołu filtrów syntezy reprezentację sygnału pasma podstawowego w domenie częstotliwościowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie czasowej, filtruje się za pomocą drugiego zespołu filtrów syntezy odtwarzany sygnał dla otrzymania reprezentacji odtwarzanego sygnału w domenie czasowej i generuje się reprezentację odtworzonego sygnału w domenie czasowej dla przedstawienia kombinacji reprezentacji sygnału pasma podstawowego w domenie czasowej i reprezentacji odtwarzanego sygnału w domenie czasowej.

Korzystnie modyfikuje się reprezentację odtwarzanego sygnału w domenie czasowej zgodnie z ocenianą obwiednią czasową i łączy się reprezentację sygnał u pasma podstawowego w domenie czasowej i zmodyfikowaną reprezentację odtwarzanego sygnału dla otrzymania odtworzonego sygnału.

Korzystnie modyfikuje się reprezentację sygnału pasma podstawowego w domenie czasowej zgodnie z ocenianą obwiednią czasową i łączy się zmodyfikowaną reprezentacją sygnału pasma podstawowego w domenie czasowej i zmodyfikowaną reprezentację odtwarzanego sygnału w domenie czasowej dla otrzymania odtworzonego sygnału.

Korzystnie modyfikuje się reprezentację odtworzonego sygnału w domenie częstotliwościowej zgodnie z danymi reprezentującymi ocenianą obwiednię czasową dla regulacji przebiegu czasowego reprezentacji odtworzonego sygnału w domenie czasowej.

Zaletą wynalazku jest opracowanie właściwego przetwarzania sygnałów akustycznych w celu zmniejszenia ilości informacji potrzebnej do prezentowania sygnału podczas przesyłania lub zapisywania przy zachowaniu odbieranej jakości sygnału. Chociaż niniejszy wynalazek dotyczy zwłaszcza

PL 208 846 B1 odtwarzania sygnałów muzycznych, nadaje się on również do szerokiego zakresu sygnałów akustycznych, w tym i głosu.

Przedmiot wynalazku jest pokazany w przykładach wykonania na rysunku, na którym:

fig. 1 przedstawia główne części składowe systemu łączności, fig. 2 - schemat blokowy nadajnika, fig. 3A i 3B - wykresy graficzne hipotetycznych przebiegów sygnału akustycznego i sygnału pasma podstawowego, fig. 4 - schemat blokowy odbiornika, fig. 5A-5D - wykresy graficzne hipotetycznych przebiegów sygnału pasma podstawowego i sygnałów wytwarzanych przez przetwarzanie sygnału pasma podstawowego, fig. 6A-6G - wykresy graficzne hipotetycznych przebiegów sygnałów otrzymywanych przez odtworzenie składowych o wysokiej częstotliwości przy użyciu zarówno przesuwania widma, jak i mieszania szumu, fig. 6H - przebieg sygnału z fig. 6G po regulacji wzmocnienia, fig. 7 - przebieg sygnału pasma podstawowego z fig. 6B, połączonego z odtworzonym sygnałem pokazanym na fig. 6H, fig. 8A - przebieg czasowy sygnału, fig. 8B - przebieg czasowy sygnału wyjściowego, wytworzonego przez uzyskiwanie sygnału pasma podstawowego z sygnału z fig. 8A i odtwarzanie sygnału przez proces przesuwania widma, fig. 8C - przebieg czasowy sygnału z fig. 8B po przeprowadzeniu regulacji czasowej obwiedni, fig. 9 - schemat blokowy nadajnika, który dostarcza informacje potrzebne do regulacji czasowej obwiedni przy zastosowaniu technik w domenie czasowej, fig. 10 - schemat blokowy odbiornika do realizacji regulacji czasowej obwiedni przy użyciu technik w domenie czasowej, fig. 11 - schemat blokowy nadajnika, który dostarcza informacje potrzebne do regulacji czasowej obwiedni przy zastosowaniu technik w domenie częstotliwościowej oraz fig. 12 - schemat blokowy odbiornika do realizacji regulacji czasowej obwiedni przy użyciu technik w domenie częstotliwościowej.

Figura 1 przedstawia główne części składowe systemu łączności w schemacie blokowymi. Źródło 112 informacji wytwarza w torze 115 sygnał akustyczny, reprezentujący zasadniczo dowolny rodzaj informacji akustycznej, jak mowa lub muzyka. Nadajnik 136 odbiera sygnał akustyczny z toru 115 i przetwarza informacje do postaci nadającej się do przesyłania w kanale 140. Nadajnik 136 może przygotować sygnał dopasowany do właściwości fizycznych kanału 140. Kanał 140 może być torem przesyłania, takim jak przewody elektryczne lub światłowody, albo też może być torem łączności radiowej. Kanał 140 może również zawierać pamięć, która przechowuje sygnał na nośniku pamięci, takim jak magnetyczna taśma lub dysk, albo dysk optyczny, do późniejszego wykorzystania przez odbiornik 142. Odbiornik 142 może realizować wiele różnych funkcji przetwarzania sygnału, takich jak demodulacja lub dekodowanie sygnału odebranego z kanału 140. Sygnał wyjściowy odbiornika 142 jest podawany poprzez tor 145 do przetwornika 147, który przetwarza go w sygnał wyjściowy 152 odpowiedni dla użytkownika. W konwencjonalnym systemie odtwarzania sygnału akustycznego przykładowo głośniki służą jako przetwornik do przetwarzania sygnałów elektrycznych w sygnały akustyczne.

Systemy łączności, które są ograniczone do przesyłania w kanale, który ma ograniczoną szerokość pasma lub zapisywanie przeprowadzane jest na nośniku o ograniczonej pojemności, napotykają problemy, gdy popyt na informacje przewyższa dostępną szerokość pasma lub pojemność. W rezultacie w dziedzinie rozgłaszania i zapisywania ciągle konieczne jest zmniejszanie ilości informacji w nadawanym lub zapisywanym sygnale akustycznym z dostosowaniem do percepcji ludzkiej bez pogarszania subiektywnej jakości sygnału akustycznego. Podobnie trzeba polepszać jakość sygnału wyjściowego przy danej szerokości pasma przesyłania lub pojemności zapisu.

Technika używana w związku z kodowaniem mowy znana jest jako odtwarzanie wysokiej częstotliwości. Przesyłany lub zapisywany jest tylko sygnał pasma podstawowego, zawierający składowe niskiej częstotliwości sygnału mowy. Odbiornik 142 odtwarza pominięte składowe wysokiej częstotliwości na podstawie zawartości odebranego sygnału pasma podstawowego i łączy sygnał pasma podstawowego z odtworzonymi składowymi wysokiej częstotliwości, by wytworzyć sygnał wyjściowy. Zwykle jednak znane techniki odtwarzania wysokiej częstotliwości wytwarzają odtworzone składowe wysokiej częstotliwości, które można łatwo odróżnić od składowych wysokiej częstotliwości w pierwotnym sygnale. Przedmiotowy wynalazek proponuje ulepszoną technikę odtwarzania składowych widmowych, która wytwarza odtworzone składowe widmowe w odbiorze bardziej podobne do analogicz6

PL 208 846 B1 nych składowych widmowych pierwotnego sygnału niż to jest przy znanych technikach. Warto zauważyć, że chociaż opisane tu sposoby są czasami nazywane odtwarzaniem wysokiej częstotliwości, przedmiotowy wynalazek nie ogranicza się do odtwarzania wysokoczęstotliwościowych składowych sygnału. Opisane poniżej sposoby mogą być również wykorzystywane do odtwarzania składowych widmowych w dowolnej części widma.

B. Nadajnik

Figura 2 przedstawia schemat blokowy nadajnika 136 według jednego aspektu przedmiotowego wynalazku. Wejściowy sygnał akustyczny jest odbierany z toru 115 i przetwarzany przez zespół 705 filtrów analizowania, by otrzymać reprezentację sygnału wejściowego w domenie częstotliwościowej. Analizator 710 sygnału pasma podstawowego określa, które składowe widmowe sygnału wejściowego mają być odrzucone. Filtr 715 usuwa te składowe widmowe, które mają zostać odrzucone, by wytworzyć sygnał pasma podstawowego złożony z pozostałych składowych widmowych. Zespół 720 oceny obwiedni widmowej uzyskuje ocenę obwiedni widmowej sygnału wejściowego. Analizator 722 widma analizuje ocenioną obwiednię widmową, by określić parametry mieszania szumu dla sygnału. Zespół 725 formatowania sygnału łączy informacje ocenionej obwiedni widmowej, parametry mieszania szumu i sygnał pasma podstawowego w sygnał wyjściowy, mający postać odpowiednią do przesyłania lub zapisywania.

1. Zespół filtrów analizowania

Zespół 705 filtrów analizowania może być realizowany zasadniczo przez każdą transformację z domeny czasowej do domeny częstotliwościowej. Transformacja użyta w korzystnej realizacji przedmiotowego wynalazku jest opisana w pracy Princen, Johnson i Bradley, „Sub-band/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation, ICASSP 1987 Conf. Proc, maj 1987, str. 2161-64. Transformacja ta jest w domenie czasowej równoważna systemowi analizysyntezy krytycznie próbkowanego pojedynczego pasma bocznego z nieparzystym układaniem stosu z kasowaniem zastępującym domenę czasową, w skrócie O-TDAC.

Według tej techniki O-TDAC sygnał akustyczny jest próbkowany, poddawany kwantyzacji i grupowany w szereg zachodzących na siebie bloków próbek sygnału w domenie czasowej. Każdy blok próbki jest ważony przez funkcję okna analizy. Jest to równoważnik zwielokrotniania próbka po próbce bloku próbek sygnału. Technika O-TDAC wykorzystuje zmodyfikowaną dyskretną transformację cosinusoidalną (DCT) do ważonych bloków próbek sygnału w domenie czasowej w celu wytworzenia zbioru współczynników transformacji, nazywanych tu blokami transformacji. Aby uzyskać krytyczne próbkowanie, technika ta utrzymuje tylko połowę współczynników widmowych przed przesyłaniem lub zapisywaniem. Niestety, zachowanie tylko połowy współczynników widmowych powoduje, że komplementarna transformacja odwrotna wytwarza składowe zastępujące domenę czasową. Technika O-TDAC może ukrywać zastępowanie i dokładnie odtwarzać sygnał wejściowy. Długość bloków może być zmieniana przez znane techniki wykorzystywania właściwości sygnału. Trzeba jednak uważać na spójność fazy z przyczyn omówionych poniżej. Dodatkowe szczegóły techniki O-TDAC podano w opisie patentowym USA nr 5.394.473.

W celu odtworzenia bloków pierwotnego sygnału wejściowego z bloków transformacji technika O-TDAC wykorzystuje odwrotną zmodyfikowaną transformację DCT. Bloki sygnałów wytworzone przez tę odwrotną transformację są ważone przez funkcję okna syntezy, nakładane na siebie i dodawane w celu odtworzenia sygnału wejściowego. Aby ukryć zastępowanie w domenie czasowej i dokładnie odtworzyć sygnał wejściowy, okna analizy i syntezy muszą być skonstruowane tak, by spełniały dokładnie pewne kryteria.

W jednej korzystnej realizacji systemu przesyłania lub zapisywania wejściowego sygnału cyfrowego próbkowanego z częstotliwością 44,1 tysiąca próbek na sekundę, składowe widma otrzymane z zespołu 705 filtrów analizy są dzielone na cztery subpasma, których zakresy częstotliwości podano w tabeli 1.

T a b e l a 1

Pasmo	Zakres częstotliwości (kHz)
0	0,0 - 5,5
1	5,5 - 11,0
2	11,0 - 16,5
3	16,5 - 22,0

PL 208 846 B1

2. Analizator sygnału pasma podstawowego

Analizator 710 sygnału pasma podstawowego wybiera, które składowe widma należy odrzucić, a które zachować dla sygnału pasma podstawowego. Wybór taki może się zmieniać w zależności od właściwości sygnału wejściowego lub też może pozostawać stały w zależności od wymagań zastosowania. Jednakże twórcy wynalazku stwierdzili doświadczalnie, że odbierana jakość sygnału akustycznego pogarsza się, jeżeli odrzucić jedną lub więcej podstawowych częstotliwości sygnału. Korzystne jest zatem zachowanie tych części widma, które zawierają podstawowe częstotliwości sygnału. Ponieważ podstawowe częstotliwości głosu i większości naturalnych instrumentów muzycznych zwykle nie są większe niż w przybliżeniu 5 kHz, korzystna realizacja nadajnika 136 przeznaczonego do zastosowań muzycznych wykorzystuje stałą częstotliwość odcięcia w przybliżeniu 5000 kHz i odrzuca wszystkie składowe widma powyżej tej częstotliwości. W przypadku stałej częstotliwości odcięcia analizator sygnału pasma podstawowego nie musi robić nic poza określeniem stałej częstotliwości odcięcia filtru 715 i widmowego analizatora 722. W alternatywnym przykładzie realizacji analizator 710 sygnału pasma podstawowego jest wyeliminowany, a filtr 715 i widmowy analizator 722 działają zgodnie ze stałą częstotliwością odcięcia. W strukturze subpasm przedstawionej powyżej w tabeli 1, przykładowo tylko w subpaśmie 0, utrzymane są składowe widmowe dla sygnału pasma podstawowego. Wybór ten jest również odpowiedni, ponieważ ucho ludzkie nie może łatwo wykrywać różnic częstotliwości powyżej 5 kHz i dlatego nie może łatwo wychwycić niedokładności w odtworzonych składowych powyżej tej częstotliwości.

Wybór częstotliwości odcięcia ma wpływ na szerokość pasma sygnału pasma podstawowego, która z kolei ma wpływ na kompromis pomiędzy wymaganiami dotyczącymi pojemności informacji sygnału wyjściowego generowanego przez nadajnik 136 a odbieraną jakością sygnału odtworzonego przez odbiornik 142. Odbierana jakość sygnału odtworzonego przez odbiornik 142 jest zależna od trzech czynników, które są omówione w następnych ustępach.

Pierwszym czynnikiem jest dokładność nadawanej lub zapisanej reprezentacji sygnału pasma podstawowego. Zwykle, jeżeli szerokość pasma sygnału pasma podstawowego jest utrzymywana jako stała, odbierana jakość odtworzonego sygnału będzie coraz lepsza przy zwiększaniu dokładności reprezentacji sygnału pasma podstawowego. Niedokładności reprezentują szum, który będzie słyszalny w odtworzonym sygnale, jeżeli niedokładności te są wystarczająco duże. Szum ten będzie pogarszać zarówno odbieraną jakość sygnału pasma podstawowego, jak i składowe widmowe odtwarzane z sygnału pasma podstawowego. W przykładowej realizacji reprezentacja sygnału pasma podstawowego jest zestawiona ze współczynników transformacji w domenie częstotliwościowej. Dokładność takiej reprezentacji jest kontrolowana przez liczbę bitów wykorzystywanych do wyrażenia każdego współczynnika transformacji. Można zastosować pewne techniki kodowania, by osiągnąć określony poziom dokładności za pomocą mniejszej liczby bitów. Jednakże przy każdej technice kodowania istnieje podstawowy kompromis pomiędzy wymaganą dokładnością sygnału pasma podstawowego a wymaganą pojemnością informacji.

Drugim czynnikiem jest szerokość pasma sygnału pasma podstawowego, które jest nadawane lub zapisywane. Zwykle, jeżeli dokładność reprezentacji sygnału pasma podstawowego jest utrzymywana jako stała, odbierana jakość odtworzonego sygnału będzie rosnąć wraz ze zwiększaniem szerokości pasma sygnału pasma podstawowego. Stosowanie sygnałów pasma podstawowego o większej szerokości pasma umożliwia ograniczenie w odbiorniku 142 odtwarzanych składowych widmowych do wyższych częstotliwości, przy których słuch ludzki jest mniej wrażliwy na różnice w układzie czasowym i widmowym. W przykładowej realizacji wspomnianej powyżej szerokość pasma sygnału pasma podstawowego jest kontrolowana przez liczbę współczynników transformacji w reprezentacji. Można zastosować pewne techniki kodowania, by przenosić pewną liczbę współczynników za pomocą mniejszej liczby bitów. Jednakże podstawowy kompromis pomiędzy wymaganiami szerokości pasma sygnału pasma podstawowego a wymaganiami pojemności informacji istnieje przy każdej technice kodowania.

Trzecim czynnikiem jest pojemność informacji potrzebna do przesyłania lub zapisywania reprezentacji sygnału pasma podstawowego. Jeżeli wymagania dotyczące pojemności informacji są utrzymywane jako stałe, dokładność sygnału pasma podstawowego będzie zmieniać się odwrotnie proporcjonalnie z szerokością pasma sygnału pasma podstawowego. Potrzeby danego zastosowania będą zwykle wyznaczały wymaganie dotyczące określonej pojemności informacji dla sygnału wyjściowego wytworzonego przez nadajnik 136. Pojemność taka musi być przyporządkowana różnym częściom sygnału wyjściowego, takim jak reprezentacja sygnału pasma podstawowego i oceniana obwiednia

PL 208 846 B1 widmowa. Przyporządkowanie takie musi równoważyć wymagania wielu sprzecznych dążeń, które są znane w systemach telekomunikacyjnych. W ramach takiego przyporządkowania szerokość pasma sygnału pasma podstawowego należy wybierać tak, by równoważyć kompromis z dokładnością kodowania w celu optymalizacji odbieranej jakości odtworzonego sygnału.

3. Zespół oceny obwiedni widmowej

Zespół 720 oceny obwiedni widmowej analizuje sygnał akustyczny, by uzyskać informacje dotyczące obwiedni widmowej sygnału. Jeżeli dostępna pojemność informacji pozwoli, odbiornik 136 korzystnie otrzymuje ocenę widmowej obwiedni sygnału przez podzielenie widma sygnału na pasma częstotliwościowe o szerokości zbliżonej do krytycznych pasm ucha ludzkiego i wyprowadzenie informacji dotyczących siły sygnału w każdym paśmie. W większości zastosowań o ograniczonej pojemności informacji korzystne jest jednak podzielenie widma na mniejszą liczbę subpasm, tak jak w układzie przedstawionym powyżej w tabeli 1. Można stosować inne odmiany, takie jak obliczanie widmowej gęstości mocy lub wyprowadzanie średniej albo maksymalnej amplitudy w każdym paśmie. Bardziej skomplikowane sposoby mogą zapewniać wyższą jakość sygnału wyjściowego, ale zwykle wymagają większej mocy obliczeniowej. Wybór sposobu użytego w celu otrzymania ocenionej obwiedni widmowej zwykle ma pewne implikacje praktyczne, ponieważ zwykle ma wpływ na odbieraną jakość systemu telekomunikacyjnego. Jednakże wybór sposobu nie jest w zasadzie krytyczny. W razie potrzeby można stosować zasadniczo każdy sposób.

W jednym przykładzie realizacji z użyciem struktury subpasm przedstawionej w tabeli 1, zespół 720 oceny obwiedni widmowej otrzymuje ocenę obwiedni widmowej tylko dla subpasm 0, 1 i 2. Subpasmo 3 jest z tego wykluczone, aby zmniejszyć ilość informacji wymaganą do reprezentowania ocenianej obwiedni widmowej.

4. Analizator widmowy

Analizator widmowy 722 analizuje ocenianą obwiednię widmową otrzymaną z zespołu 720 oceny obwiedni widmowej oraz informacje z analizatora 710 sygnału pasma podstawowego, które wyznaczają składowe widmowe, które należy odrzucić z sygnału pasma podstawowego i oblicza co najmniej jeden z parametrów mieszania szumu, które mają być użyte przez odbiornik 142 do wygenerowania składowej szumu dla przesuwanych składowych widma. Korzystny przykład realizacji zmniejsza do minimum wymagania dotyczące prędkości transmisji danych przez obliczanie i przesyłanie jednego parametru mieszania szumu, który ma być stosowany przez odbiornik 142 wobec wszystkich przesuwanych składowych. Parametry mieszania szumu mogą być obliczane dowolnym z wielu różnych sposobów. Korzystny sposób polega na wyznaczeniu pojedynczego parametru mieszania szumu równego mierze płaskości widmowej, która jest obliczana ze stosunku średniej geometrycznej do średniej arytmetycznej krótkotrwałego widma mocy. Stosunek ten zgrubnie wyznacza płaskość widma. Większa miara płaskości widmowej, która oznacza bardziej płaskie widmo, oznacza również, że odpowiedni jest większa poziom mieszania szumu.

W alternatywnej realizacji nadajnika 136 składowe widmowe są grupowane w wielu subpasmach, takich jak przedstawione w tabeli 1, a nadajnik 136 wysyła dla każdego subpasma parametr mieszania szumu. Określa to dokładniej ile szumu należy zmieszać z informacją zawartą w przesuwanej częstotliwości, ale wymaga to również większej prędkości transmisji danych przy przesyłaniu dodatkowych parametrów mieszania szumu.

5. Filtr sygnału pasma podstawowego

Filtr 715 otrzymuje informacje z analizatora 710 sygnału pasma podstawowego, które identyfikują składowe widmowe wybrane do usunięcia z sygnału pasma podstawowego i eliminują wybrane składowe częstotliwościowe, by otrzymać reprezentację sygnału pasma podstawowego w domenie częstotliwościowej do przesyłania lub zapisania. Figury 3A i 3B są hipotetycznymi ilustracjami graficznymi sygnału akustycznego i odpowiedniego sygnału pasma podstawowego. Figura 3A przedstawia obwiednię widmową reprezentacji 600 hipotetycznego sygnału akustycznego w domenie częstotliwościowej. Figura 3B przedstawia obwiednię widmową sygnału 610 pasma podstawowego, która pozostaje po przetworzeniu sygnału akustycznego w celu usunięcia wybranych składowych wysokiej częstotliwości.

Filtr 715 może być realizowany zasadniczo w dowolny sposób, który skutecznie usuwa składowe częstotliwościowe, które zostały wybrane do usunięcia. W jednym przykładzie realizacji filtr 715 wykorzystuje funkcję okna w domenie częstotliwościowej do reprezentowania wejściowego sygnału akustycznego w domenie częstotliwościowej. Kształt tej funkcji okna jest wybrany tak, aby zapewnić

PL 208 846 B1 odpowiedni kompromis pomiędzy selektywnością częstotliwościową i tłumiennością wobec wpływów w domenie czę stotliwo ściowej na wyjś ciowy sygnał akustyczny, który jest ostatecznie wytwarzany przez odbiornik 142.

6. Zespół formowania sygnału

Zespół 725 formowania sygnału wytwarza sygnał wyjściowy w kanale telekomunikacyjnym 140 przez łączenie informacji ocenionej obwiedni widmowej, co najmniej jednego parametru mieszania szumu i reprezentacji sygnału pasma podstawowego w sygnał wyjściowy w postaci nadającej się do przesyłania lub zapisania. Poszczególne sygnały mogą być łączone zasadniczo w dowolny sposób. W wielu zastosowaniach zespół 725 formatowania powoduje zwielokrotnienie oddzielnych sygnałów w szeregowy strumień bitów o odpowiednich wzorach synchronizacji, z odpowiednią detekcją błędów i kodami korekcji oraz z innymi informacjami, które dotyczą operacji przesyłania albo zapisywania, lub też zastosowania, w którym wykorzystywana jest informacja akustyczna. Zespół 725 formatowania sygnału może również kodować całość lub części sygnału wyjściowego, aby zmniejszyć wymagania dotyczące pojemności informacji, zapewnić bezpieczeństwo, albo doprowadzić sygnał wyjściowy do postaci, która ułatwia późniejsze wykorzystywanie go.

C. Odbiornik

Figura 4 jest schematem blokowym odbiornika 142 według jednego aspektu przedmiotowego wynalazku. Zespół 805 deformatowania odbiera sygnał z telekomunikacyjnego kanału 140 i otrzymuje z tego kanału sygnał pasma podstawowego, informacje ocenionej obwiedni widmowej oraz co najmniej jeden parametr mieszania szumu. Te elementy informacji są przesyłane do zespołu 808 przetwarzania sygnału, który zawiera widmowy odtwarzacz 810, regulator fazy 815, mieszający filtr 818 i regulator wzmocnienia 820. Odtwarzacz 810 składowych widmowych określa, których składowych widmowych brakuje w sygnale pasma podstawowego i odtwarza je przez przesunięcie wszystkich lub przynajmniej niektórych składowych widmowych sygnału pasma podstawowego na miejsca brakujących składowych widmowych. Te przeniesione składowe są przekazywane do regulatora fazy 815, który ustawia fazę co najmniej jednej składowej widmowej w połączonym sygnale, aby zapewnić zgodność fazową. Mieszający filtr 818 dodaje co najmniej jeden składnik szumowy do przeniesionych składowych zgodnie z co najmniej jednym parametrem mieszania szumu, odebranym z sygnałem pasma podstawowego. Taki regulator wzmocnienia 820 ustawia amplitudę składowych widmowych w odtworzonym sygnale zgodnie z informacjami ocenionej obwiedni widmowej, odebranymi wraz z sygnałem pasma podstawowego. Przeniesione i ustawione składowe widmowe są łączone z sygnałem pasma podstawowego, by wytworzyć reprezentację sygnału wyjściowego w domenie częstotliwościowej. Zespół 825 filtrów syntezy przetwarza ten sygnał, by otrzymać reprezentację sygnału wyjściowego w domenie czasowej, którą przesyła się wzdłuż toru 145.

1. Zespół deformatowania

Zespół 805 deformatowania przetwarza sygnał odebrany z telekomunikacyjnego kanału 140 w taki sposób, że jest on komplementarny w odniesieniu do procesu formatowania, przeprowadzanego przez zespół 725 formatowania sygnału. W wielu zastosowaniach zespół 805 deformatowania odbiera szeregowy strumień bitów z kanału 140, wykorzystuje wzory synchronizacji zawarte w tym strumieniu bitów do synchronizowania swego działania, wykorzystuje kody korekcji i wykrywania błędów do identyfikacji i usuwania błędów, które zostały wprowadzone w strumień bitów podczas przesyłania lub zapisywania oraz działa jako demultiplekser, by utworzyć reprezentację sygnału pasma podstawowego, informacje ocenionej obwiedni widmowej, co najmniej jeden parametr mieszania szumu oraz dowolne inne informacje, które mogą być potrzebne w tym zastosowaniu. Zespół 805 deformatowania może również dekodować całość lub części szeregowego strumienia bitów w celu odwrócenia wyników ewentualnego kodowania przeprowadzonego przez nadajnik 136. Reprezentacja sygnału pasma podstawowego w domenie częstotliwościowej jest podawana na odtwarzacz 810 składowych widmowych, parametry mieszania szumu są podawane na filtr 818 mieszania, a informacje obwiedni widmowej są podawane na regulator wzmocnienia 820.

2. Odtwarzacz składowych widmowych

Odtwarzacz 810 składowych widmowych odtwarza brakujące składowe widmowe przez kopiowanie lub przenoszenie wszystkich lub przynajmniej niektórych składowych widmowych sygnału pasma podstawowego w miejsca brakujących składowych sygnału. Składowe widmowe mogą być kopiowane do więcej niż jednego przedziału częstotliwości, co umożliwia wytwarzanie sygnału wyjściowego o szerokości pasma większej niż podwójna szerokość pasma sygnału pasma podstawowego.

PL 208 846 B1

W przykładzie realizacji odbiornika 142, który wykorzystuje tylko subpasma 0 i 1 z tabeli 1, sygnał pasma podstawowego nie zawiera żadnych składowych widmowych powyżej częstotliwości odcięcia wynoszącej w przybliżeniu 5,5 kHz. Składowe widmowe sygnału pasma podstawowego są kopiowane lub przenoszone do zakresu częstotliwości 5,5-11,0 kHz. Jeżeli przykładowo potrzebna jest szerokość pasma 16,5 kHz, składowe widmowe sygnału pasma podstawowego mogą być również przenoszone do zakresów częstotliwości 11,0-16,5 kHz. Zwykle składowe widmowe są przenoszone do niezachodzących na siebie zakresów częstotliwości tak, że żadna szczelina nie istnieje w widmie zawierającym sygnał pasma podstawowego i wszystkie skopiowane składowe widmowe. Jednakże cecha taka nie jest istotna. Składowe widmowe mogą być przenoszone do zachodzących na siebie zakresów częstotliwości i/lub do zakresów częstotliwości ze szczelinami w widmie zasadniczo w dowolny żądany sposób.

Wybór, które składowe widmowe należy kopiować, można było zmienić w celu dostosowania do określonego zastosowania. Przykładowo składowe widmowe, które są kopiowane, nie muszą zaczynać się przy dolnej krawędzi pasma podstawowego i nie muszą kończyć się przy górnej krawędzi pasma podstawowego. Odbieraną jakość sygnału odtworzonego przez odbiornik 142 można czasami polepszyć przez wykluczenie podstawowych częstotliwości głosu i instrumentów, a kopiowanie tylko harmonicznych. Aspekt ten zastosowano w jednym przykładzie realizacji przez wykluczenie z przeniesienia takich składowych widmowych pasma podstawowego, które są poniżej około 1 kHz. Jeśli chodzi o strukturę pasma podstawowego przedstawioną przykładowo powyżej w tabeli 1, przenoszone są tylko składowe widmowe w zakresie od 1 kHz do około 5,5 kHz.

Jeżeli szerokość pasma wszystkich składowych widmowych, które mają być odtwarzane, jest większa niż szerokość pasma składowych widmowych pasma podstawowego, które mają być kopiowane, wówczas składowe widmowe pasma podstawowego mogą być kopiowane w sposób kołowy, zaczynając od składowej o najmniejszej częstotliwości, aż do składowej o największej częstotliwości, a w razie potrzeby z kontynuowaniem znów od składowej od najmniejszej częstotliwości. Przykładowo, biorąc pod uwagę strukturę subpasm przedstawioną w tabeli 1, jeżeli mają być kopiowane tylko składowe widmowe pasma podstawowego od 1 kHz do 5,5 kHz i mają być odtwarzane składowe widmowe dla subpasm 1 i 2, które obejmują częstotliwości od 5,5 kHz do 16,5 kHz, wówczas składowe widmowe pasma podstawowego 1-5,5 kHz są kopiowane do odpowiednich częstotliwości 5,5-10 kHz i te same składowe widmowe pasma podstawowego 1-5,5 kHz są ponownie kopiowane do odpowiednich częstotliwości 10-14,5 kHz, zaś składowe widmowe pasma podstawowego w zakresie 1-3 kHz są kopiowane do odpowiednich częstotliwości 14,5-16,5 kHz. Alternatywnie ten proces kopiowania można przeprowadzać dla każdego oddzielnego subpasma składowych odtwarzanych przez kopiowanie składowej o najniższej częstotliwości w paśmie podstawowym do dolnej krawędzi odpowiedniego subpasma i kontynuowanie ze składowymi widmowymi pasma podstawowego w układzie kołowym, jak to jest potrzebne do zakończenia przenoszenia do tego subpasma.

Na fig. 5A-5D przedstawiono hipotetyczne ilustracje graficzne obwiedni widmowej sygnału pasma podstawowego i obwiedni widmowej sygnałów tworzonych przez przeniesienie składowych widmowych w sygnale pasma podstawowego. Figura 5A przedstawia hipotetyczny zdekodowany sygnał 900 pasma podstawowego. Figura 5B przedstawia składowe widmowe sygnału 905 pasma podstawowego przeniesione do wyższych częstotliwości. Figura 5C przedstawia składowe 910 sygnału pasma podstawowego przeniesione wielokrotnie do wyższych częstotliwości. Figura 5D przedstawia sygnał uzyskiwany przez połączenie przeniesionych składowych 915 i sygnału 920 pasma podstawowego.

3. Regulator fazy

Przenoszenie składowych widmowych może powodować pewne nieciągłości fazy odtworzonych składowych. Opisana powyżej realizacja transformacji O-TDAC, jak również wiele innych możliwych realizacji tworzy reprezentacje w domenie częstotliwościowej, które są zorganizowane w blokach współczynników transformacji. Przeniesione składowe widmowe są również zorganizowane w blokach. Jeżeli składowe widmowe odtworzone przez przeniesienie mają nieciągłości fazy pomiędzy kolejnymi blokami, istnieje prawdopodobieństwo wystąpienia słyszalnych artefaktów w wyjściowym sygnale akustycznym.

Regulator fazy 815 ustawia fazę każdej odtworzonej składowej widmowej tak, by utrzymywać zgodną lub spójną fazę. W przykładzie realizacji odbiornika 142, w którym wykorzystuje się opisaną powyżej transformację O-TDAC, każda z odtworzonych składowych widmowych jest mnożona przez wartość zespoloną e^jAw, gdzie Δω oznacza interwał częstotliwości, do którego przenoszona jest odpowiednia składowa widmowa, wyrażony jako wiele współczynników transformacji, które odpowiadają

PL 208 846 B1 temu interwałowi częstotliwości. Przykładowo, jeżeli pewna składowa widmowa jest przenoszona do częstotliwości sąsiedniej składowej, wówczas interwał przenoszenia Δω jest równy jedności. Alternatywne przykłady realizacji mogą wymagać różnych technik regulacji fazy odpowiednich dla konkretnej realizacji zespołu 825 filtrów syntezy.

Proces przenoszenia można dostosować do odtworzonych składowych z harmonicznymi znaczących składowych widmowych w sygnale pasma podstawowego. Dwa sposoby dostosowania przenoszenia polegają na zmienianiu albo specyficznych składowych widmowych, które są kopiowane, albo wartości przenoszenia. Jeżeli stosowany jest proces adaptacyjny, należy zwracać szczególną uwagę na zgodność fazy, jeżeli składowe widmowe są zorganizowane w blokach. Jeżeli odtwarzane składowe widmowe są kopiowane z różnych składowych podstawowych w poszczególnych blokach, albo jeśli wartość przenoszenia częstotliwości jest zmieniana w poszczególnych blokach, istnieje bardzo duże prawdopodobieństwo, że odtworzone składowe nie będą zgodne pod względem fazy. Możliwe jest dostosowanie przenoszenia składowych widmowych, ale trzeba starać się, by słyszalność artefaktów powodowanych przez niezgodność fazową nie była znaczna. System, który wykorzystuje albo techniki wielokrotnego przepuszczania, albo techniki przewidywania, mógłby wyznaczać interwały, w których przenoszenie mogłoby być dostosowywane. Bloki reprezentujące interwały sygnału akustycznego, w których odtworzone składowe widmowe są uważane za niesłyszalne, są zwykle dobrymi kandydatami do dostosowania procesu przenoszenia.

4. Filtr mieszania szumu

Filtr 818 mieszania szumu wytwarza składową szumu dla przenoszonych składowych widmowych przy wykorzystaniu parametrów mieszania szumu otrzymanych z zespołu 805 deformatowania. Mieszający filtr 818 wytwarza sygnał szumu, oblicza funkcję mieszania szumu wykorzystującą parametry mieszania szumu i wykorzystuje tę funkcję mieszania szumu do łączenia sygnału szumu z przenoszonymi składowymi widmowymi.

Sygnał szumu może być wytwarzany dowolnym z wielu różnych sposobów. W korzystnym przykładzie realizacji sygnał szumu jest wytwarzany przez generowanie ciągu przypadkowych liczb, których rozkład charakteryzuje się zerową średnią i wariancją równą jedności. Mieszający filtr 818 reguluje sygnał szumu przez mnożenie sygnału szumu przez funkcję mieszania szumu. Jeżeli stosuje się pojedynczy parametr mieszania szumu, wówczas funkcja mieszania szumu zasadniczo powinna regulować sygnał szumu tak, by miał on większą amplitudę przy wyższych częstotliwościach. Wynika to z omówionych powyżej założeń, że sygnały głosu i sygnały naturalnych instrumentów muzycznych mają tendencję do zawierania więcej szumu przy wyższych częstotliwościach. W korzystnym przykładzie realizacji, kiedy składowe widmowe są przenoszone do wyższych częstotliwości, funkcja mieszania szumu ma maksymalną amplitudę przy najwyższej częstotliwości i zmniejsza się gładko do wartości minimalnej przy najniższej częstotliwości, przy której szum jest mieszany.

Jeden przykład realizacji wykorzystuje funkcję mieszania szumu N(/c) określoną następującym wzorem:

N(k) = maks I . ^{k l}-^M'^N— + B-1,0] dla kMIN < k < Imaks (1)

V ^kMAKS ^{- k}MIN ) gdzie maks(x,y) oznacza większą ze zmiennych x i y,

B = parametr mieszania szumu oparty na SFM, k = indeks odtwarzanych składowych widmowych, kMAKS = największa częstotliwość odtwarzania składowej widmowej, oraz kMIN = najmniejsza częstotliwość odtwarzania składowej widmowej.

W tym przykładzie realizacji wartość B zmienia się od zero do jeden, przy czym jeden oznacza płaskie widmo, które jest typowe dla sygnału podobnego do szumu, a zero oznacza kształt widma, który nie jest płaski i jest typowy dla sygnału dźwiękopodobnego. Wartość ułamka w równaniu 1 zmienia się od zero do jeden, gdy k zwiększa się od kMIN do kMAKS. Jeżeli B jest równe zero, pierwszy czynnik funkcji „maks zmienia się od wartości minus jeden do zero, a zatem N(k) będzie równe zero w całym odtwarzanym widmie i żaden szum nie będzie dodawany do odtworzonych składowych widmowych. Jeżeli B jest równe jeden, pierwszy czynnik funkcji max zmienia się od zero do jeden. Na skutek tego N(k) zwiększa się liniowo od zera przy najniższej odtwarzanej częstotliwości kMIN, aż do wartości równej jeden przy maksymalnej odtwarzanej częstotliwości kMAKS. Jeżeli B ma wartość pomiędzy zerem a jednością, N(k) jest równe zero od kMIN, aż do pewnej częstotliwości pomiędzy kMIN a kMAKS, po czym zwiększa się liniowo w pozostałej części odtwarzanego widma. Amplituda odtwa12

PL 208 846 B1 rzanych składowych widmowych jest regulowana przez mnożenie odtworzonych składowych przez funkcję mieszania szumu. Regulowany sygnał szumu i regulowane odtworzone składowe widmowe zostają połączone.

Opisany powyżej przykład realizacji jest jedynie jednym odpowiednim przykładem. W razie potrzeby można stosować inne techniki mieszania szumu.

Figury 6A-6G są hipotetycznymi ilustracjami graficznymi widmowych obwiedni sygnałów otrzymanych przez odtworzenie składowych wysoko-częstotliwościowych przy użyciu zarówno przesunięcia widmowego, jak i mieszania szumu. Figura 6A przedstawia hipotetyczny wejściowy sygnał 410, który ma być wysyłany. Figura 6B przedstawia sygnał 420 pasma podstawowego wytworzony przez odrzucenie składowych wysokoczęstotliwościowych. Figura 6C przedstawia odtworzone składowe 431,432 i 433 wysokiej częstotliwości. Figura 6D przedstawia możliwą funkcję 440 mieszania szumu, która nadaje większą wagę składowym szumu o wyższych częstotliwościach. Figura 6E jest schematyczną ilustracją sygnału 445 szumu, który został pomnożony przez funkcję 440 mieszania szumu. Figura 6F przedstawia sygnał 450 wytworzony przez pomnożenie odtworzonych składowych 431,432 i 433 wysokiej częstotliwości przez odwrotność funkcji 440 mieszania szumu. Figura 6G jest schematyczną ilustracją połączonego sygnału 460, uzyskanego po dodaniu regulowanego sygnału 445 szumu do regulowanych składowych 450 wysokiej częstotliwości. Figura 6G przedstawia schematycznie, że wysokoczęstotliwościowa część 430 stanowi mieszaninę przeniesionych składowych 431, 432 i 433 wysokiej częstotliwości i szumu.

5. Regulator wzmocnienia

Regulator 820 wzmocnienia ustawia amplitudę odtworzonego sygnału w zależności od informacji ocenionej obwiedni widmowej, otrzymanej z zespołu 805 deformatowania. Figura 6H jest hipotetyczną ilustracją obwiedni widmowej sygnału 460 pokazanego na fig. 6G po regulacji wzmocnienia. Część 510 tego sygnału, zawierającego mieszaninę przesuniętych składowych widmowych i szumu, otrzymała obwiednię widmową zbliżoną do obwiedni widmowej pierwotnego sygnału 410, pokazanego na fig. 6A. Odtwarzanie obwiedni widmowej w dokładnej skali zwykle nie jest niezbędne, ponieważ odtworzone składowe widmowe nie odtwarzają dokładnie składowych widmowych pierwotnego sygnału. Przesunięty szereg harmoniczny zwykle nie będzie równy szeregowi harmonicznemu. Z tego powodu zwykle nie ma możliwości zapewnienia, że odtworzony sygnał wyjściowy jest identyczny z pierwotnym sygnałem wejściowym w dokładnej skali. Zgrubne przybliżenia, które dopasowują energię widmową w małej liczbie krytycznych pasm dają dobry wynik. Należy również zauważyć, że zastosowanie raczej zgrubnej oceny kształtu widma, a nie dokładniejszej aproksymacji jest zwykle korzystne, ponieważ zgrubna ocena nakłada na kanały przesyłowe i nośniki zapisu mniejsze wymagania dotyczące pojemności informacji. W zastosowaniach akustycznych, które mają więcej niż jeden kanał, można jednak polepszyć zobrazowanie słuchowe przez użycie dokładniejszych aproksymacji kształtu widma, tak że można wprowadzić dokładniejsze regulacje wzmocnienia, by zapewnić dokładne zrównoważenie pomiędzy kanałami.

6. Zespół filtrów syntezy

Odtworzone składowe widmowe poddane regulacji wzmocnienia przez regulator 820 wzmocnienia łączy się z reprezentacją sygnału pasma podstawowego w domenie częstotliwościowej, odebraną z zespołu 805 deformatowania, by utworzyć reprezentację odtworzonego sygnału w domenie częstotliwościowej. Można to zrobić przez dodanie odtworzonych składowych do analogicznych składowych sygnału pasma podstawowego. Figura 7 przedstawia hipotetyczny sygnał odtworzony otrzymany przez łączenie sygnału pasma podstawowego, pokazanego na fig. 6B, z odtworzonymi składowymi, pokazanymi na fig. 6H.

Zespół 825 filtrów syntezy transformuje reprezentację odtworzonego sygnału w domenie częstotliwościowej w reprezentację w domenie czasowej. Ten zespół filtrów może być zrealizowany zasadniczo w dowolny sposób, ale powinien być odwrotnością zespołu 705 filtrów, używanego w nadajniku 136. W korzystnej realizacji, omówionej powyżej, odbiornik 142 wykorzystuje syntezę O-TDAC, która stosuje odwrotną zmodyfikowaną transformację DCT.

D. Alternatywne przykłady realizacji wynalazku

Szerokość i lokalizację sygnału pasma podstawowego można ustalać zasadniczo w dowolny sposób i można je zmieniać dynamicznie np. w zależności od właściwości sygnału wejściowego. W jednym alternatywnym przykładzie realizacji nadajnik 136 generuje sygnał pasma podstawowego przez odrzucanie wielu pasm składowych widmowych, przez co tworzone są w widmie sygnału pasma

PL 208 846 B1 podstawowego szczeliny. Podczas odtwarzania składowych widmowych części sygnału pasma podstawowego są przesuwane w celu odtworzenia brakujących składowych widmowych.

Można również zmieniać kierunek przesuwania. W innym przykładzie realizacji nadajnik 136 odrzuca składowe widmowe niskiej częstotliwości, by wytworzyć sygnał pasma podstawowego usytuowany przy stosunkowo wyższych częstotliwościach. Odbiornik 142 przesuwa części sygnału pasma podstawowego wysokiej częstotliwości do dołu w kierunku do niższych częstotliwości, by odtworzyć brakujące składowe widmowe.

E. Sterowanie obwiednią czasową

Omówione powyżej techniki odtwarzania nadają się do generowania odtworzonego sygnału, który zasadniczo zachowuje obwiednię widmową wejściowego sygnału akustycznego. Jednakże, czasowa obwiednia sygnału wejściowego zwykle nie jest zachowana, fig. 8A przedstawia czasowy kształt akustycznego sygnału 860. Figura 8B przedstawia czasowy kształt odtworzonego wyjściowego sygnału 870, wytworzonego przez uzyskanie sygnału pasma podstawowego z sygnału 860 z fig. 8A i odtworzenie odrzuconych składowych widmowych w procesie przesuwania składowych widmowych. Czasowy kształt odtworzonego sygnału 870 różni się znacznie od czasowego kształtu pierwotnego sygnału 860.

Zmiany czasowego kształtu mogą mieć znaczny wpływ na odbieraną jakość odtworzonego sygnału akustycznego. Poniżej omówione zostaną dwa sposoby zachowywania obwiedni czasowej.

1. Technika w domenie czasowej

Według pierwszego sposobu nadajnik 136 określa czasową obwiednię wejściowego sygnału akustycznego w domenie czasowej, a odbiornik 142 odtwarza taką samą lub zasadniczo taką samą obwiednię czasową odtworzonego sygnału w domenie czasowej.

a) Nadajnik

Figura 9 przedstawia schemat blokowy jednego przykładu realizacji nadajnika 136 w systemie łączności, który wykorzystuje sterowanie obwiedni czasowej przy użyciu techniki w domenie czasowej. Zespół 205 filtrów analizy odbiera sygnał wejściowy z toru 115 i dzieli ten sygnał na wiele sygnałów subpasm częstotliwości. Na rysunku tym przedstawiono tylko dwa subpasma, by zachować przejrzystość, jednakże zespół 205 filtrów analizy może dzielić sygnał wejściowy na dowolną całkowitą liczbę subpasm, która jest większa niż jeden.

Zespół 205 filtrów analizy może być realizowany zasadniczo w dowolny sposób, np. w postaci jednego lub wielu filtrów zwierciadła kwadraturowego (QMF), połączonych kaskadowo, albo korzystnie przez technikę pseudo-QMF, która umożliwia dzielenie sygnału wejściowego na dowolną całkowitą liczbę subpasm w jednym etapie filtrowania. Dodatkowe informacje na temat techniki pseudo-QMF można znaleźć w pracy Vaidyanathan, Multirate Systems and Filter Banks, Prentice Hall, New Jersey, 1993, str. 354-373.

Do tworzenia sygnału pasma podstawowego wykorzystuje się co najmniej jeden sygnał subpasma. Pozostałe sygnały subpasm zawierają składowe widmowe sygnału wejściowego, które są odrzucane. W wielu zastosowaniach sygnał pasma podstawowego jest tworzony z jednego sygnału subpasma, reprezentującego składowe widmowe najniższej częstotliwości z sygnału wejściowego, ale zasadniczo nie jest to konieczne. W jednym korzystnym przykładzie realizacji systemu przesyłania lub zapisywania wejściowego sygnału cyfrowego próbkowanego z częstotliwością 44,1 tysiąca próbek na sekundę zespół 205 filtrów analizy dzieli sygnał wejściowy na cztery subpasma, których zakresy częstotliwości są takie, jak przedstawiono w tabeli 1. Subpasmo najniższej częstotliwości jest wykorzystywane do tworzenia sygnału pasma podstawowego.

W przykładzie realizacji z fig. 9, zespół 205 filtrów analizy przepuszcza sygnał subpasma niskiej częstotliwości jako sygnał pasma podstawowego do zespołu 213 oceniania obwiedni czasowej i modulatora 214. Zespół 213 oceny obwiedni czasowej tworzy ocenioną obwiednię czasową sygnału pasma podstawowego, podawaną na modulator 214 i zespół 225 formatowania sygnału. Korzystnie składowe widmowe sygnału pasma podstawowego poniżej 500 Hz są albo wykluczane z procesu oceny obwiedni czasowej, albo są tłumione tak, że nie mają żadnego znaczącego wpływu na kształt ocenionej obwiedni czasowej. Można to osiągnąć przez poddawanie sygnału przeanalizowanego przez zespół 213 oceny obwiedni czasowej działaniu odpowiedniego filtru górnoprzepustowego. Modulator 214 dzieli amplitudę sygnału pasma podstawowego przez ocenianą obwiednią tymczasową i podaje na zespół 215 filtrów analizy reprezentację sygnału pasma podstawowego, która jest spłaszczona czasowo. Zespół 215 filtrów analizy wytwarza reprezentację spłaszczonego sygnału pasma podstawowego w domenie częstotliwościowej, która jest podawana na koder 220 w celu zakodowania. Zespół 215 filtrów analizy, jak również omówiony poniżej zespół 212 filtrów analizy mogą być

PL 208 846 B1 realizowane przez zasadniczo dowolną transformację z domeny czasowej do domeny częstotliwościowej, jednakże zasadniczo korzystna jest transformacja podobna do transformacji O-TDAC, która realizuje krytycznie próbkowany zespół filtrów. Koder 220 jest opcjonalny. Jednakże jego stosowanie jest korzystne, ponieważ kodowanie można zwykle wykorzystywać do zmniejszania wymagań informacyjnych spłaszczonego sygnału pasma podstawowego. Spłaszczony sygnał pasma podstawowego w postaci zakodowanej lub też nie jest podawany na zespół 225 formatowania sygnału.

Zespół 205 filtrów analizy podaje sygnał subpasma wyższej częstotliwości na zespół 210 oceny obwiedni czasowej i na modulator 211. Zespół 210 oceny obwiedni czasowej tworzy ocenioną obwiednię czasową sygnału subpasma wyższej częstotliwości i podaje ją na modulator 211 oraz na zespół 225 formatowania sygnału wyjściowego. Modulator 211 dzieli amplitudę sygnału subpasma wyższej częstotliwości przez ocenioną obwiednię czasową i podaje na zespół 212 filtrów analizy reprezentację sygnału subpasma wyższej częstotliwości, która jest spłaszczona czasowo. Zespół 212 filtrów analizy wytwarza reprezentację spłaszczonego sygnału subpasma wyższej częstotliwości w domenie częstotliwościowej. Zespół 720 obwiedni widmowej i widmowy analizator 722 podają ocenioną obwiednię widmową i odpowiednio co najmniej jeden parametr mieszania szumu dla sygnału subpasma wyższej częstotliwości zasadniczo w taki sam sposób, jak opisano powyżej, na zespół 225 formatowania sygnału.

Zespół 225 formatowania sygnału podaje sygnał wyjściowy w telekomunikacyjny kanał 140 przez łączenie reprezentacji spłaszczonego sygnału pasma podstawowego, ocenionych czasowych obwiedni sygnału pasma podstawowego i sygnału subpasma wyższej częstotliwości, ocenionej obwiedni widmowej oraz co najmniej jednego parametru mieszania szumu w sygnał wyjściowy. Poszczególne sygnały i informacje są składane w jeden sygnał o formacie nadającym się do przesyłania lub zapisywania przy użyciu zasadniczo dowolnej żądanej techniki formatowania, jak opisano powyżej w odniesieniu do zespołu 725 formatowania sygnału.

b) Zespół oceny obwiedni czasowej

Zespoły 210 i 213 oceny obwiedni czasowej mogą być realizowane wieloma różnymi sposobami. W jednym przykładzie realizacji każdy z tych zespołów oceny przetwarza sygnał subpasma tak, że dzieli go na bloki próbek sygnału subpasma. Te bloki próbek sygnału subpasma są również przetwarzane albo przez zespół 212 filtrów analizy, albo przez zespół 215 filtrów analizy. W wielu praktycznych realizacjach bloki te zawierają liczbę próbek, która jest potęgą liczby dwa i jest większa niż 256 próbek. Taka wielkość bloku jest zwykle korzystna w celu polepszenia skuteczności i rozdzielczości częstotliwościowej transformacji użytych do zrealizowania zespołów 212 i 215 filtrów analizy. Taka długość bloków może być również przyjęta w odpowiedzi na pewne właściwości sygnału wejściowego, takie jak występowanie lub brak dużych sygnałów przejściowych. Każdy blok jest ponadto dzielony na grupy po 256 próbek do oceny obwiedni czasowej. Wielkość tych grup jest wybrana tak, by wyważyć kompromis pomiędzy dokładnością oceny a ilością informacji potrzebną do przenoszenia tej oceny w sygnale wyjściowym.

W jednym przykładzie realizacji zespół oceny obwiedni czasowej oblicza moc próbek w każdej grupie próbek sygnału subpasma. Zestaw wartości mocy dla bloku próbek sygnału subpasma jest ocenioną obwiednią czasową tego bloku. W innym przykładzie realizacji zespół oceny obwiedni czasowej oblicza wartość średnią wielkości próbek sygnału subpasma w każdej grupie. Zestaw średnich dla bloku jest ocenioną obwiednią czasową tego bloku.

Zestaw wartości ocenionej obwiedni może być kodowany wieloma różnymi sposobami. W jednym przykładzie obwiednią dla każdego bloku jest reprezentowana przez wartość początkową dla pierwszej grupy próbek w bloku i zestaw wartości różnicowych, które wyrażają względne wartości dla dalszych grup. W innym przykładzie kody różnicowe albo kody bezwzględne wykorzystuje się w sposób adaptacyjny, by zmniejszyć ilość informacji potrzebną do przenoszenia tych wartości.

c) Odbiornik

Figura 10 przedstawia schemat blokowy jednego przykładu realizacji odbiornika 142 w systemie telekomunikacyjnym, który wykorzystuje sterowanie obwiedni czasowej przy użyciu techniki w domenie czasowej. Zespół 265 deformatowania otrzymuje sygnał z telekomunikacyjnego kanału 140 i uzyskuje z tego sygnału reprezentację spłaszczonego sygnału pasma podstawowego, ocenione obwiednie czasowe sygnału pasma podstawowego oraz sygnał subpasma wyższej częstotliwości, ocenioną obwiednię widmową i co najmniej jeden parametr mieszania szumu. Dekoder 267 jest opcjonalny, ale powinien być używany, by usuwać wpływ kodowania przeprowadzonego w nadajniku 136 w celu otrzymania reprezentacji spłaszczonego sygnału pasma podstawowego w domenie częstotliwościowej.

PL 208 846 B1

Zespół 280 filtrów syntezy otrzymuje reprezentację spłaszczonego sygnału pasma podstawowego w domenie częstotliwościowej i wytwarza reprezentację w domenie czasowej stosując technikę, która jest odwróceniem techniki stosowanej w zespole 215 filtrów analizy w nadajniku 136. Modulator 281 otrzymuje ocenioną obwiednię czasową sygnału pasma podstawowego z zespołu 265 deformatowania i wykorzystuje tę ocenioną obwiednię do modulowania spłaszczonego sygnału pasma podstawowego, odebranego z zespołu 280 filtrów syntezy. Modulacja ta tworzy czasowy kształt, który jest zasadniczo taki sam jak czasowy kształt pierwotnego sygnału pasma podstawowego przed spłaszczeniem przez modulator 214 w nadajniku 136.

Procesor 808 sygnału odbiera reprezentację spłaszczonego sygnału pasma podstawowego w domenie częstotliwościowej, ocenioną obwiednię widmową oraz co najmniej jeden parametr mieszania szumu z zespołu 265 deformatowania i odtwarza składowe widmowe w taki sam sposób, jak omówiono powyżej w odniesieniu do procesora 808 sygnału, przedstawionego na fig. 4. Odtworzone składowe widmowe są podawane na zespół 283 filtrów syntezy, który wytwarza reprezentację w domenie czasowej wykorzystując technikę, która jest odwróceniem techniki użytej przez zespoły 212 i 215 filtrów analizy w nadajniku 136. Modulator 284 odbiera ocenioną obwiednię czasową sygnału subpasma wyższej częstotliwości z zespołu 265 deformatowania i wykorzystuje tę ocenioną obwiednię do modulowania odtworzonych składowych widmowych sygnału odebranego z zespołu 283 filtrów syntezy. Modulacja taka tworzy czasowy kształt, który jest zasadniczo taki sam jak czasowy kształt pierwotnego sygnału subpasma wyższej częstotliwości przed spłaszczeniem przez modulator 211 w nadajniku 136.

Zmodulowany sygnał subpasma i zmodulowany sygnał subpasma wyższej częstotliwości są łączone ze sobą, by utworzyć odtworzony sygnał, który jest podawany na zespół 287 filtrów syntezy. Ten zespół 287 filtrów syntezy wykorzystuje technikę będącą odwróceniem techniki użytej przez zespół 205 filtrów analizy w nadajniku 136 do przesłania torem 145 sygnału wyjściowego, który jest percepcyjnie nieodróżnialny lub prawie nieodróżnialny od pierwotnego sygnału wejściowego, odbieranego z toru 115 przez nadajnik 136.

2. Technika w domenie częstotliwościowej

Zgodnie z tym drugim sposobem nadajnik 136 określa czasową obwiednię wejściowego sygnału akustycznego w domenie częstotliwościowej, a odbiornik 142 odtwarza taką samą lub zasadniczo taką samą obwiednię czasową dla odtworzonego sygnału w domenie częstotliwościowej.

a) Nadajnik

Figura 11 przedstawia schemat blokowy jednego przykładu realizacji nadajnika 136 w systemie telekomunikacyjnym, który przeprowadza sterowanie obwiedni czasowej przy użyciu techniki w domenie częstotliwościowej. Realizacja tego nadajnika jest bardzo podobna do realizacji nadajnika pokazanego na fig. 2. Zasadnicza różnica tkwi w zespole 707 oceny obwiedni czasowej. Inne części składowe nie są tu szczegółowo omawiane, ponieważ ich działanie jest zasadniczo takie samo jak opisano powyżej w odniesieniu do fig. 2.

Jak pokazano na fig. 11, zespół 707 oceny obwiedni czasowej odbiera z zespołu 705 filtrów analizy reprezentację sygnału wejściowego w domenie częstotliwościowej, którą analizuje w celu utworzenia oceny obwiedni czasowej w sygnale wejściowym. Korzystnie składowe widmowe poniżej 500 Hz są albo odrzucane z reprezentacji w domenie częstotliwościowej, albo są tłumione tak, że nie mają one znaczącego wpływu na proces oceny obwiedni czasowej. Zespół 707 oceny obwiedni czasowej otrzymuje reprezentację czasowo spłaszczonej wersji sygnału wejściowego w domenie częstotliwościowej przez rozplecenie reprezentacji ocenionej obwiedni czasowej w domenie częstotliwościowej i reprezentacji sygnału wejściowego w domenie częstotliwościowej. Takie rozplecenie można przeprowadzić przez splecenie reprezentacji sygnału wejściowego w domenie częstotliwościowej z odwrotnością reprezentacji ocenionej obwiedni czasowej w domenie częstotliwościowej. Reprezentacja czasowo spłaszczonej wersji sygnału wejściowego w domenie częstotliwościowej jest podawana na filtr 715, analizator 710 sygnału pasma podstawowego i zespół 720 oceny obwiedni widmowej. Opis reprezentacji ocenionej obwiedni czasowej w domenie częstotliwościowej jest podawany na zespół 725 formatowania sygnału, by utworzyć sygnał wyjściowy, który jest podawany w telekomunikacyjny kanał 140.

b) Zespół oceny obwiedni czasowej

Zespół 707 oceny obwiedni czasowej może być realizowany wieloma sposobami. Podstawę techniczną jednego przykładu realizacji zespołu oceny obwiedni czasowej można wyjaśnić w systemie liniowym przedstawionym przez równanie 2:

PL 208 846 B1 y(t) = h(t) · x(t) (2) gdzie y(t) = sygnał do przesyłania; h(t) = obwiednia czasowa sygnału do przesyłania; znak kropki (·) oznacza mnożenie; oraz x(t) = czasowo spłaszczona wersja sygnału y(t).

Równanie 2 można zapisać w następującej postaci:

Y[k] = H[k] * X[k] (3) gdzie Y[k] = reprezentacja sygnału wejściowego y(t) w domenie częstotliwościowej;

H[k] = reprezentacja h(t) w domenie częstotliwościowej;

znak gwiazdki (*) oznacza splot; oraz

X[k] = reprezentacja x(t) w domenie częstotliwościowej.

Nawiązując do fig. 11, sygnał y(t) jest sygnałem akustycznym, jaki nadajnik 136 otrzymuje z toru 115. Zespół 705 filtrów analizy tworzy reprezentację Y[k] sygnału Y(t) w domenie częstotliwościowej. Zespół 707 oceny obwiedni czasowej otrzymuje ocenę reprezentacji H[k] czasowej obwiedni h(t) sygnału w domenie częstotliwościowej przez rozwiązanie zestawu równań otrzymanego z autoregresywnego ruchomego średniego (ARMA) modelu Y[k] i X[k]. Dodatkowe informacje na temat stosowania modeli ARMA można uzyskać z pracy Proakis i Manolakis, Digital Signal Processing: Principles, Algorithms and Applications, MacMillan Publishing Co., Nowy Jork, 1988. Patrz zwłaszcza s. 818-821.

W korzystnym przykładzie realizacji nadajnika 136 zespół 705 filtrów wykorzystuje pewną transformację do bloków próbek reprezentujących sygnał y(t), aby utworzyć reprezentację Y[k] w domenie czasowej, zestawioną w bloki współczynników transformacji. Każdy blok współczynników transformacji wyraża krótkotrwałe widmo sygnału y(t). Reprezentacja X[k] w domenie częstotliwościowej jest również zestawiona w blokach. Każdy blok współczynników w reprezentacji X[k] w domenie częstotliwościowej reprezentuje blok próbek dla spłaszczonego czasowo sygnału x(t), który jest przyjmowany jako stabilny w szerokim sensie (WSS). Zakłada się również, że współczynniki w każdym bloku reprezentacji X[k] są rozmieszczone niezależnie (ID). Przy tych założeniach sygnały można wyrazić przez model ARMA następująco:

Y[k] + ^a₁Y[k-l]= £bqX[k - q] (4) l1 q-0

Równanie 4 można rozwiązać dla al, i bq przez rozwiązanie dla autokorelacji funkcji Y[k]:

E{Y[k]Y[k-m]}=]ra₁E{Y[k-1} Y[k-m]+ Σbq E{x[k-q]-Y[k-m]} (5) l =1 q = 0 gdzie E{ } oznacza funkcję średniej statystycznej;

L = długość autoregresywnej części modelu ARMA; oraz

Q = długość ruchomej części średniej modelu ARMA.

Równanie 5 można zapisać w następującej postaci:

/. o ^Rrr M = Σ ^RyA^m ~ Ą ⁺ Σ ^b<,^RV (6) /=1 q=0 gdzie RYY[n] oznacza autokorelację funkcji Y[n] oraz

RxY[k] oznacza korelację krzyżową Y[k] i x[k].

Jeżeli założymy ponadto, że system liniowy reprezentowany przez H[k] jest tylko autoregresywny, wówczas drugie wyrażenie po prawej stronie równania 6 jest równe wariancji σ²χ z X[k]. Równanie 6 można wtedy zapisać następująco:

PL 208 846 B1

Równanie 7 można rozwiązać przez inwersję następującego zestawu równań liniowych:

	^rr	7?_n. [2]		* 1 ‘	^σΎ
Ą,.[l]	[o]	/?„.[-1]	' ^rr [^_	«1	0
	[l]	7?_JT [0] ·	Ą’r [- -Ł + 2]	«2	0
Ą_T[i]		7?_JT[Z-2] ·	• Μθ] .		0

Na tej podstawie można teraz opisać jeden przykład realizacji zespołu oceny obwiedni czasowej, który wykorzystuje techniki w domenie częstotliwościowej. W tym przykładzie realizacji zespół

707 oceny obwiedni czasowej otrzymuje reprezentację Y[k] wejściowego sygnału y(t) w domenie czasowej i oblicza ciąg autokorelacji R_XX[m] dla -L < m < L. Wartości te są wykorzystywane do zbudowania macierzy przedstawionej w równaniu 8. Macierz ta jest następnie poddawana inwersji w celu rozwiązania jej dla współczynników aj. Ponieważ macierz w równaniu 8 jest macierzą Toeplitz'a, jej inwersję można wyznaczyć przez algorytm Levinson-Durbin'a. Informacje - patrz praca Proakis i Manolakis, str. 458-462.

Zestaw równań otrzymany przez inwersję tej macierzy nie może zostać rozwiązany bezpośrednio, ponieważ nie jest znana wariancja σ²χ funkcji X[k]. Jednakże ten zestaw równań można rozwiązać dla pewnej dowolnej wariancji, takiej jak wartość jeden. Po rozwiązaniu dla tej wartości dowolnej ten zestaw równań otrzymuje zespół nieznormalizowanych współczynników {a'0,...,a'L}. Współczynniki te są nieznormalizowane, ponieważ równania były rozwiązane dla wariancji dowolnej. Współczynniki te mogą zostać znormalizowane przez podzielenie każdego z nich przez wartość pierwszego nieznormalizowanego współczynnika a'0, co można wyrazić następująco:

a_i = -Oi. dla 0 < i < L (9) ^a'0

Wariancję można otrzymać z następującego równania:

σ²χ = — (10) ^a'0

Zespół znormalizowanych współczynników {1, a1, aL} reprezentuje zera spłaszczającego filtru FF, który można spleść z reprezentacją Y[k] wejściowego sygnału y(f) w domenie częstotliwościowej, by otrzymać reprezentację X[k] czasowo spłaszczonej wersji x(t) sygnału wejściowego w domenie częstotliwościowej. Taki zestaw znormalizowanych współczynników reprezentuje również bieguny filtra odtwarzania FR, które można spleść z reprezentacją X[k] czasowo spłaszczonego sygnału x(t) w domenie częstotliwościowej, by otrzymać reprezentację tego płaskiego sygnału w domenie częstotliwościowej, posiadającą zmodyfikowany kształt czasowy zasadniczo identyczny z czasową obwiednią wejściowego sygnału y(t).

Zespół 707 oceny obwiedni czasowej splata spłaszczający filtr FF z reprezentacją Y[k] w domenie częstotliwościowej, otrzymaną z zespołu 705 filtrów i podaje czasowo spłaszczony wynik na filtr 715, analizator 710 sygnału pasma podstawowego oraz zespół 720 oceny obwiedni widmowej. Opis współczynników w spłaszczającym filtrze FF jest podawany na zespół 725 formatowania sygnału do włączania w sygnał wyjściowy przesyłany torem 140.

c) Odbiornik

Figura 12 przedstawia schemat blokowy jednego przykładu realizacji odbiornika 142 w systemie telekomunikacyjnym, który realizuje sterowanie obwiedni czasowej przy użyciu techniki w domenie częstotliwości. Realizacja tego odbiornika jest bardzo podobna do realizacji odbiornika pokazanego na fig. 4. Zasadnicza różnica tkwi w zespole 807 odtwarzania obwiedni czasowej. Inne części składowe nie są tu omawiane bardziej szczegółowo, ponieważ ich działanie jest zasadniczo takie samo jak opisano powyżej w odniesieniu do fig. 4.

PL 208 846 B1

W nawiązaniu do fig. 12 zespół 807 odtwarzania obwiedni czasowej odbiera z zespołu 805 deformatowania opis ocenionej obwiedni czasowej, który jest splatany z reprezentacją odtworzonego sygnału w domenie częstotliwościowej. Wynik otrzymany ze splatania jest podawany na zespół 825 filtrów syntezy, który przesyła w torze 145 sygnał wyjściowy percepcyjnie niemożliwy do odróżnienia lub prawie niemożliwy do odróżnienia od pierwotnego sygnału wejściowego, otrzymywanego z toru 115 przez nadajnik 136.

Zespół 807 odtwarzania obwiedni czasowej może być realizowany wieloma sposobami. W realizacji kompatybilnej z realizacją omówionego powyżej zespołu oceny obwiedni zespół 805 deformatowania tworzy zestaw współczynników, które reprezentują bieguny filtru odtwarzania FR, które są splatane z reprezentacją odtworzonego sygnału w domenie częstotliwościowej.

d) Alternatywne przykłady realizacji

Możliwe są alternatywne przykłady realizacji. W jednym alternatywnym wykonaniu nadajnika 136 składowe widmowe reprezentacji w domenie częstotliwościowej otrzymane z zespołu 705 filtrów są grupowane w subpasma częstotliwości. Zestaw subpasm z tabeli 1 jest jednym odpowiednim przykładem. Spłaszczający filtr FF jest realizowany dla każdego subpasma i splatany z reprezentacją każdego subpasma w domenie częstotliwościowej w celu czasowego spłaszczenia go. Zespół 725 formatowania sygnału włącza w sygnał wyjściowy identyfikację ocenionej obwiedni czasowej dla każdego subpasma. Odbiornik 142 otrzymuje tę identyfikację obwiedni dla każdego subpasma, ma odpowiedni filtr FR odtwarzania dla każdego subpasma i splata go z reprezentacją odpowiedniego subpasma w domenie częstotliwościowej w odtworzonym sygnale.

Według innej alternatywy tworzy się tabelę złożoną z wielu zestawów współczynników {Ci}i. Współczynniki {1, a1,...,aL} spłaszczającego filtru FF obliczane są dla sygnału wejściowego, a następnie są porównywane z każdym z wielu zestawów współczynników zapisanych w tabeli. Zestaw {Ci}j w tej tabeli, uważany za najbliższy obliczonym współczynnikom, zostaje wybrany i użyty do spłaszczania sygnału wejściowego. Identyfikacja zestawu {Ci}j, który jest wybrany z tabeli, podawana jest na zespół 725 formatowania sygnału w celu włączenia w sygnał wyjściowy. Odbiornik 142 odbiera identyfikację zestawu {Ci}j, sprawdza tablicę zapisanych zestawów współczynników, by otrzymać odpowiedni zestaw współczynników {Ci}j, tworzy filtr FR odtwarzania, odpowiadający tym współczynnikom i splata ten filtr z reprezentacją odtworzonego sygnału w domenie częstotliwościowej. Alternatywa taka może być również stosowana wobec subpasm, jak opisano powyżej.

Jeden sposób wybierania zestawu współczynników polega na tworzeniu docelowego punktu w L-wymiarowej przestrzeni ze współrzędnymi euklidesowymi równymi obliczonym współczynnikom (a1, aL) dla sygnału wejściowego lub subpasma sygnału wejściowego. Każdy z zestawów zapisanych w tej tabeli określa również odpowiedni punkt w przestrzeni L-wymiarowej. Zapisany w tabeli zestaw, którego skojarzony punkt ma najkrótszą odległość euklidesową do punktu docelowego, jest uważany za najbliższy obliczonym współczynnikom. Jeżeli tabela zawiera przykładowo 256 zestawów współczynników, na zespół 725 formatowania sygnału może być podawana liczba ośmiobitowa identyfikująca wybrany zestaw współczynników.

F. Przykłady realizacji

Niniejszy wynalazek może być realizowany wieloma różnymi sposobami. W zależności od potrzeb można stosować techniki analogowe i cyfrowe. Różne aspekty można realizować przez dyskretne elementy elektryczne, obwody scalone, programowane tablice logiczne, człony ASIC oraz inne rodzaje elementów elektronicznych i przez urządzenia realizujące przykładowo programy złożone z poleceń. Programy złożone z poleceń mogą być przenoszone przez zasadniczo dowolne czytelne za pomocą urządzeń media, takie jak magnetyczne i optyczne nośniki pamięci, pamięć stała i pamięć programowalna.

Claims

1. Sposób przetwarzania sygnału akustycznego w urządzeniu elektronicznym, znamienny tym, że dokonuje się jednego lub wielu przekształceń sygnału akustycznego w domenie czasowej na sygnał w domenie częstotliwościowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej, zawierającego pewne, lecz nie wszystkie, składowe widmowe sygnału akustycznego, analizuje się sygnał akustyczny dla obliczenia ocenianej obwiedni widmowej przynajmniej części sygnału akustycznego, oblicza się ocenianą obwiednię czasową przynajmniej części

PL 208 846 B1 sygnału akustycznego oraz łączy się dane przedstawiające reprezentację sygnału pasma podstawowego w domenie częstotliwościowej, ocenianą obwiednię czasową przynajmniej części sygnału akustycznego i ocenianą obwiednię widmową w sygnał wyjściowy właściwy do przesyłania lub zapisywania.

2. Sposób według zastrz. 1, znamienny tym, że zmienia się długość jednego lub wielu przekształceń domen czasowych na domeny częstotliwościowe.

3. Sposób według zastrz. 1 albo 2, znamienny tym, że dokonuje się transformacji analizy kasowania z aliasowaniem w domenie czasowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej.

4. Sposób według zastrz. 3, znamienny tym, że dokonuje się przekształcenia sygnału akustycznego w domenie czasowej na sygnał w domenie częstotliwościowej dla otrzymania reprezentacji sygnału akustycznego w domenie częstotliwościowej oraz filtruje się reprezentację sygnału akustycznego w domenie częstotliwościowej dla wydzielenia części reprezentacji sygnału akustycznego w domenie częstotliwościowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej.

5. Sposób według zastrz. 3, znamienny tym, że filtruje się za pomocą zespołu filtrów analizy sygnał akustyczny dla otrzymania wielu sygnałów podpasma, reprezentujących sygnał akustyczny, filtruje się za pomocą pierwszego zespołu filtrów analizy pierwszą grupę jednego lub wielu sygnałów podpasma, które zawierają pewne, lecz nie wszystkie, z wielu sygnałów podpasma dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej i filtruje się za pomocą drugiego zespołu filtrów analizy drugą grupę jednego lub wielu sygnałów pasma podstawowego, które nie są zawarte w pierwszej grupie sygnałów podpasma oraz analizuje się uzyskany sygnał dla otrzymania ocenianej obwiedni widmowej sygnału resztkowego.

6. Sposób według zastrz. 5, znamienny tym, że modyfikuje się drugą grupę sygnałów podpasma zgodnie z odwrotnością ocenianej obwiedni czasowej drugiej grupy sygnałów podpasma dla otrzymania czasowo spłaszczonej reprezentacji drugiej grupy sygnałów podpasma, przy czym oceniana obwiednią czasowa przynajmniej części sygnału akustycznego zawiera ocenianą obwiednię czasową drugiej grupy sygnałów podpasma i dokonuje się jednego lub wielu przekształceń domeny czasowej na domenę częstotliwościową w czasowo spłaszczonej reprezentacji drugiej grupy sygnałów podpasma dla otrzymania ocenianej obwiedni widmowej sygnału resztkowego.

7. Sposób według zastrz. 6, znamienny tym, że modyfikuje się pierwszą grupę sygnałów podpasma zgodnie z odwrotnością ocenianej obwiedni czasowej pierwszej grupy sygnałów podpasma dla otrzymania czasowo spłaszczonej reprezentacji pierwszej grupy sygnałów podpasma, przy czym oceniana obwiednia czasowa przynajmniej części sygnału akustycznego zawiera ocenianą obwiednię czasową pierwszej grupy sygnałów podpasma i dokonuje się jednego lub wielu przekształceń domeny czasowej na domenę częstotliwościową w czasowo spłaszczonej reprezentacji pierwszej grupy sygnałów podpasma dla otrzymania reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej.

8. Sposób według zastrz. 6, znamienny tym, że uzyskuje się parametr mieszania szumu z czasowo spłaszczonej reprezentacji drugiej grupy sygnałów podpasma i łączy się dane w sygnał wyjściowy, który reprezentuje parametr mieszania szumu.

9. Sposób według zastrz. 4, znamienny tym, że analizuje się reprezentację w domenie częstotliwościowej przynajmniej sygnału resztkowego dla otrzymania ocenianej obwiedni czasowej.

10. Sposób według zastrz. 4, znamienny tym, że oblicza się czasowo spłaszczoną reprezentację przynajmniej części sygnału akustycznego w odpowiedzi na odwrotność ocenianej obwiedni czasowej i oblicza się ocenianą obwiednię widmową z czasowo spłaszczonej reprezentacji.

11. Sposób generowania odtworzonego sygnału akustycznego w urządzeniu elektronicznym, znamienny tym, że odbiera się sygnał zawierający dane reprezentujące sygnał pasma podstawowego, otrzymywany z sygnału akustycznego, ocenianą obwiednię widmową i ocenianą obwiednię czasową, wydziela się reprezentację sygnału pasma podstawowego w domenie częstotliwościowej z danych, przetwarza się składowe widmowe pasma podstawowego częstotliwościowo dla otrzymania odtwarzanego sygnału zawierającego odtwarzane składowe widmowe i dokonuje się jednego lub wielu przekształceń domeny częstotliwościowej na domenę czasową w kombinacji składowych widmowych odtwarzanego sygnału ze składowymi widmowymi reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej dla otrzymania reprezentacji odtworzonego sygnału w domenie czasowej, przy czym uzyskuje się reprezentację w domenie czasowej o przebiegu czasowym regulowanym

PL 208 846 B1 w odpowiedzi na dane reprezentujące ocenianą obwiednię czasową przez modyfikację składowych widmowych w odpowiedzi na dane reprezentujące ocenianą obwiednię czasową albo przez modyfikację reprezentacji w domenie czasowej w odpowiedzi na dane reprezentujące ocenianą obwiednię czasową.

12. Sposób według zastrz. 11, znamienny tym, że zmienia się długość jednego lub wielu przekształceń domeny częstotliwościowej na domenę czasową.

13. Sposób według zastrz. 11 albo 12, znamienny tym, że dokonuje się transformacji syntezy kasowania z aliasowaniem w domenie czasowej dla otrzymania reprezentacji odtworzonego sygnału w domenie czasowej.

14. Sposób według zastrz. 13, znamienny tym, że dostosowuje się przetwarzanie składowych widmowych przez zmianę tego, którego składowe widmowe przesuwa się, lub przez zmianę wartości częstotliwości, o którą składowe widmowe przesuwa się.

15. Sposób według zastrz. 14, znamienny tym, że odbiera się dane w sygnale, który reprezentuje parametr mieszania szumu, uzyskiwany z miary zawartości szumu w sygnale akustycznym, generuje się sygnał szumu mający składowe widmowe, które zmieniają się zasadniczo odwrotnie do częstotliwości i modyfikuje się odtwarzany sygnał przez regulację amplitud odtwarzanych składowych widmowych zgodnie z ocenianą obwiednią widmową i parametrem mieszania szumu oraz łączy się modyfikowany odtwarzany sygnał z sygnałem szumu.

16. Sposób według zastrz. 14, znamienny tym, że łączy się składowe widmowe odtwarzanego sygnału i składowe widmowe reprezentacji sygnału pasma podstawowego w domenie częstotliwościowej dla otrzymania odtworzonego sygnału i filtruje się za pomocą zespołu filtrów syntezy odtworzony sygnał dla otrzymania reprezentacji odtworzonego sygnału w domenie czasowej.

17. Sposób według zastrz. 14, znamienny tym, że filtruje się za pomocą pierwszego zespołu filtrów syntezy reprezentację sygnału pasma podstawowego w domenie częstotliwościowej dla otrzymania reprezentacji sygnału pasma podstawowego w domenie czasowej, filtruje się za pomocą drugiego zespołu filtrów syntezy odtwarzany sygnał dla otrzymania reprezentacji odtwarzanego sygnału w domenie czasowej i generuje się reprezentację odtworzonego sygnału w domenie czasowej dla przedstawienia kombinacji reprezentacji sygnału pasma podstawowego w domenie czasowej i reprezentacji odtwarzanego sygnału w domenie czasowej.

18. Sposób według zastrz. 17, znamienny tym, że modyfikuje się reprezentację odtwarzanego sygnału w domenie czasowej zgodnie z ocenianą obwiednią czasową i łączy się reprezentację sygnału pasma podstawowego w domenie czasowej i zmodyfikowaną reprezentację odtwarzanego sygnału dla otrzymania odtworzonego sygnału.

19. Sposób według zastrz. 18, znamienny tym, że modyfikuje się reprezentację sygnału pasma podstawowego w domenie czasowej zgodnie z ocenianą obwiednią czasową i łączy się zmodyfikowaną reprezentację sygnału pasma podstawowego w domenie czasowej i zmodyfikowaną reprezentację odtwarzanego sygnału w domenie czasowej dla otrzymania odtworzonego sygnału.

20. Sposób według zastrz. 14, znamienny tym, że modyfikuje się reprezentację odtworzonego sygnału w domenie częstotliwościowej zgodnie z danymi reprezentującymi ocenianą obwiednię czasową dla regulacji przebiegu czasowego reprezentacji odtworzonego sygnału w domenie czasowej.