PL208344B1 - Sposób kodowania sygnałów akustycznych i sposób dekodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacji - Google Patents
Sposób kodowania sygnałów akustycznych i sposób dekodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacjiInfo
- Publication number
- PL208344B1 PL208344B1 PL372104A PL37210403A PL208344B1 PL 208344 B1 PL208344 B1 PL 208344B1 PL 372104 A PL372104 A PL 372104A PL 37210403 A PL37210403 A PL 37210403A PL 208344 B1 PL208344 B1 PL 208344B1
- Authority
- PL
- Poland
- Prior art keywords
- spectral components
- spectral
- signal
- zero
- subband
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 235
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 230000000873 masking effect Effects 0.000 claims description 38
- 238000013139 quantization Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 14
- 230000007423 decrease Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Optical Elements Other Than Lenses (AREA)
- Stereophonic System (AREA)
- Adornments (AREA)
- Optical Communication System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Optical Recording Or Reproduction (AREA)
- Spectrometry And Color Measurement (AREA)
- Stereo-Broadcasting Methods (AREA)
- Optical Filters (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
Opis wynalazku
Przedmiotem wynalazku jest sposób kodowania sygnałów akustycznych i sposób dekodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacji.
Systemy kodowania fonii służą do przetwarzania sygnału akustycznego w sygnał kodowany, który nadaje się do przesyłania lub zapisania. Kodowany sygnał jest odbierany lub odtwarzany oraz dekodowany, aby otrzymać wersję oryginalnego sygnału akustycznego do wysłuchania. Percepcyjne systemy kodowania fonii kodują sygnał akustyczny w sygnał kodowany, który ma mniejszą wymaganą pojemność informacji niż oryginalny sygnał akustyczny, po czym dekodują kodowany sygnał, aby otrzymać sygnał wyjściowy, który jest percepcyjnie nieodróżnialny od oryginalnego sygnału akustycznego. Przykładowy percepcyjny system kodowania fonii jest opisany w publikacji Advanced Televionion Systems Committe (ATSC) A52 (1994), nazwany Dolby AC-3. Inny przykład jest opisany w publikacji Bosi'ego i in.: ISO/IEC MPEG-2 Advanced Audio Coding, J. AES, tom 45, nr 10, październik 1997, strony 789-814, nazwany Advanced Audio Coding (AAC). Te dwa systemy kodowania, jak również wiele innych percepcyjnych systemów kodowania, stosuje zestaw filtrów analizy dla sygnału akustycznego, aby otrzymać składowe widmowe, które są zestawiane w grupy lub pasma częstotliwości. Szerokości pasm są zwykle zmienne i współmierne z szerokościami tak zwanych pasm krytycznych ludzkiego słuchu.
Percepcyjne systemy kodowania są używane do zmniejszenia wymaganej pojemności informacji sygnału akustycznego przy zachowaniu subiektywnej lub odbieranej jakości sygnału akustycznego tak, że kodowany sygnał akustyczny jest przesyłany kanałem telekomunikacyjnym przy zastosowaniu pasma o mniejszej szerokości lub jest zapisywany na nośniku zajmując mniej miejsca. Wymagania dotyczące pojemności informacji są zmniejszane przez kwantowanie składowych widmowych. Kwantowanie wprowadza szum do kwantowanego sygnału, ale percepcyjne systemy kodowania fonii zwykle stosują modele psychoakustyczne do sterowania amplitudą szumu kwantowania tak, że jest on maskowany lub czyniony niesłyszalnym przez składowe widmowe w sygnale.
Składowe widmowe w danym paśmie są często kwantowane do takiej samej rozdzielczości kwantowania i jest stosowany model psychoakustyczny do określania największej minimalnej rozdzielczości kwantowania lub najmniejszego stosunku sygnału do szumu (SNR), który jest możliwy bez wprowadzania słyszalnego poziomu szumu kwantowania. Ta technika działa dość dobrze przy wąskich pasmach, ale nie działa równie dobrze w przypadku szerszych pasm, gdy wymagania dotyczące pojemności informacji ograniczają system kodowania do stosowania stosunkowo dużej rozdzielczości kwantowania. Składowe widmowe o większej ważności w szerokim paśmie są zwykle kwantowane do wartości niezerowej przy żądanej rozdzielczości, lecz składowe widmowe o mniejszej ważności w paś mie są kwantowane do zera, jeż eli mają one wartość mniejszą niż minimalny poziom kwantowania. Liczba składowych widmowych w paśmie, które są kwantowane do zera, zwykle zwiększa się, gdy rośnie szerokość pasma, ponieważ wzrasta różnica pomiędzy największymi i najmniejszymi wartościami składowych widmowych w paśmie oraz ponieważ zwiększa się minimalny poziom kwantowania.
Istnienie wielu kwantowanych do zera (QTZ) składowych widmowych w kodowanym sygnale może szkodzić odbieranej jakości sygnału akustycznego, nawet jeśli wynikowy szum kwantowania jest utrzymywany jako wystarczająco mały, aby wydawał się niesłyszalny lub był psychoakustycznie maskowany przez składowe widmowe w sygnale. Takie pogorszenie ma co najmniej trzy przyczyny. Pierwszą przyczyną jest to, że szum kwantowania może nie być niesłyszalny, ponieważ poziom maskowania psychoakustycznego jest mniejszy niż przewidywany przez model psychoakustyczny stosowany do określenia rozdzielczości kwantowania. Drugą przyczyną jest to, że tworzenie wielu kwantowanych do zera składowych widmowych może słyszalnie zmniejszyć energię lub moc dekodowanego sygnału akustycznego w porównaniu z energią lub mocą oryginalnego sygnału akustycznego. Trzecia przyczyna dotyczy procesów kodowania, które stosują zespoły filtrów kasowania zniekształceń, takie jak filtr zwierciadła kwadraturowego (QMF) lub specjalnie zmodyfikowana dyskretna transformata cosinus (DCT) i zmodyfikowana odwrotna dyskretna transformata cosinus (IDCT), znane jako transformaty kasowania aliasingu w domenie czasu (TDAC), które są opisane w publikacji Princena i innych, pod tytułem: Kodowanie podpasma/transformaty przy użyciu konstrukcji zestawów filtrów w oparciu o kasowanie aliasingu w domenie czasu, ICASSP 1987, Conf. Proc, maj 1987, strony 2161-64.
Systemy kodowania, które stosują zespoły filtrów kasowania zniekształceń, takie jak filtry zwierciadła kwadraturowego lub transformaty kasowania aliasingu w domenie czasu, stosują zespół filtrów
PL 208 344 B1 analizy w procesie kodowania, który wprowadza zniekształcenia lub szkodliwe składowe do kodowanego sygnału, lecz stosują zespół filtrów syntezy w procesie dekodowania, który może, przynajmniej teoretycznie, kasować zniekształcenia. W praktyce jednak zdolność zestawu filtrów syntezy do kasowania zniekształceń może być znacznie pogorszona, jeżeli wartości jednej lub więcej składowych widmowych są znacznie zmieniane w procesie kodowania. Z tego powodu składowe widmowe kwantowane do zera mogą pogorszyć odbieraną jakość dekodowanego sygnału akustycznego nawet wtedy, jeśli szum jest niesłyszalny, ponieważ zmiany wartości składowych widmowych mogą pogorszyć zdolność zestawu filtrów syntezy do kasowania zniekształceń wprowadzanych przez zestaw filtrów analizy.
Techniki stosowane w znanych systemach kodowania mają przewidziane częściowe rozwiązania tych problemów. Systemy kodowania transformaty, na przykład Dolby AC-3 i AAC, mają pewną zdolność generowania sygnału wyjściowego z kodowanego sygnału, który utrzymuje poziom oryginalnego sygnału akustycznego przez podstawienie szumu za pewne składowe widmowe kwantowane do zera w dekoderze. W obu tych systemach koder wprowadza do kodowanego sygnału wskazanie mocy dla pasma częstotliwości, a dekoder wykorzystuje to wskazanie mocy do podstawienia właściwego poziomu szumu za skwantowane do zera składowe widmowe w paśmie częstotliwości. Koder systemu Dolby AC-3 ocenia zgrubnie krótko trwające widmo mocy, które może być stosowane do generowania właściwego poziomu szumu. Wówczas gdy wszystkie składowe widmowe w paśmie są ustawione na zero, dekoder wypełnia pasmo szumem mającym w przybliżeniu taką samą moc, jak moc wskazana w ocenie zgrubnej krótko trwają cego widma mocy. System kodowania AAC wykorzystuje technikę zwaną percepcyjnym podstawianiem szumu (PNS), która doskonale przenosi moc w danym paśmie. Dekoder stosuje tę informację, aby dodać szum dla dostosowania do tej mocy. Oba systemy dodają szum tylko w tych pasmach, które nie mają niezerowych składowych widmowych. Systemy te nie pomagają chronić poziomów mocy w pasmach, które zawierają mieszaninę składowych skwantowanych do zera i składowych widmowych niezerowych.
Tablica 1 przedstawia hipotetyczne pasmo składowych widmowych oryginalnego sygnału akustycznego, 3-bitowo skwantowaną reprezentację każdej składowej widmowej, która jest wprowadzona do kodowanego sygnału i właściwe składowe widmowe, otrzymane przez dekoder z kodowanego sygnału. Skwantowane pasmo w kodowanym sygnale zawiera kombinację składowych skwantowanych do zera i składowych widmowych niezerowych.
T a b l i c a 1
Składowe sygnału oryginalnego | Składowe kwantowane | Składowe dekwantowane |
10101010 | 101 | 10100000 |
00000100 | 000 | 00000000 |
00000010 | 000 | 00000000 |
00000001 | 000 | 00000000 |
00011111 | 000 | 00000000 |
00010101 | 000 | 00000000 |
00001111 | 000 | 00000000 |
01010101 | 010 | 01000000 |
11110000 | 111 | 11100000 |
Pierwsza kolumna tej tabeli przedstawia zestaw nieoznakowanych liczb binarnych, reprezentujących składowe widmowe w oryginalnym sygnale akustycznym, które są grupowane w pojedyncze pasmo. Druga kolumna przedstawia reprezentację składowych widmowych skwantowanych do trzech bitów. W tym przykładzie część każdej składowej widmowej poniżej 3-bitowej rozdzielczości została usunięta przez obcięcie. Skwantowane składowe widmowe są przenoszone do dekodera i następnie dekwantowane przez dołączenie bitów zerowych w celu przywrócenia oryginalnej długości składowej widmowej. Dekwantowane składowe widmowe są przedstawione w trzeciej kolumnie. Ponieważ większość składowych widmowych została skwantowana do zera, pasmo dekwantowanych składowych widmowych zawiera mniej energii niż pasmo oryginalnych składowych widmowych, a energia ta jest
PL 208 344 B1 skupiana w kilku niezerowych składowych widmowych. To zmniejszenie energii może pogorszyć odbieraną jakość dekodowanego sygnału, jak to wyjaśniono powyżej.
Sposób kodowania według wynalazku polega na tym, że generuje się zbiór sygnałów podpasm, z których każdy ma jedną lub więcej składowych widmowych, reprezentujących zawartość widmową sygnału akustycznego, przez kwantowanie informacji otrzymanych przez zastosowanie zestawu filtrów analizy dla informacji akustycznej i generuje się sygnał wyjściowy przez zestawienie informacji reprezentującej zbiór sygnałów podpasma, identyfikuje się w zbiorze sygnałów podpasma określony sygnał podpasma, w którym jedna lub więcej składowych widmowych ma wartość niezerową i kwantuje się je za pomocą urządzenia kwantującego, mającego minimalny poziom kwantowania, który odpowiada progowi, przy czym wiele składowych widmowych ma wartość zerową, odbiera się informacje sterowania skalowaniem z zawartości widmowej sygnału akustycznego, a za pomocą informacji sterowania skalowaniem steruje się skalowaniem syntezowanych składowych widmowych, które mają zostać zsyntezowane i podstawione za składowe widmowe o wartości zerowej w odbiorniku, przez który generuje się informację akustyczną w odpowiedzi na sygnał wyjściowy oraz zestawia się informację sterowania skalowaniem z informacji reprezentującej zbiór sygnałów podpasm dla wytwarzania sygnału wyjściowego.
Korzystnie odbiera się miarę tonalności sygnału akustycznego, reprezentowanego przez zbiór sygnałów podpasm oraz otrzymuje się z tej miary tonalności informacje sterowania skalowaniem.
Korzystnie odbiera się oceniony próg maskowania psychoakustycznego sygnału akustycznego, reprezentowanego przez zbiór sygnałów podpasm oraz otrzymuje się z tego ocenionego progu maskowania psychoakustycznego informacje sterowania skalowaniem.
Korzystnie odbiera się dwie miary poziomów widmowych części sygnału akustycznego, reprezentowanych przez składowe widmowe o wartości niezerowej i wartości zerowej oraz otrzymuje się z tych dwóch miar poziomów widmowych informacje sterowania skalowaniem.
Sposób dekodowania według wynalazku polega na tym, że odbiera się sygnał wejściowy i otrzymuje się z niego zbiór sygnał ów podpasm, z których każdy ma jedną lub wię cej skł adowych widmowych, reprezentujących zawartość widmową sygnału akustycznego, identyfikuje się w tym zbiorze sygnałów podpasm określony sygnał podpasma, w którym jedna lub więcej składowych widmowych ma wartość niezerową i kwantuje się go za pomocą urządzenia kwantującego, mającego minimalny poziom kwantowania, który odpowiada progowi i w którym wiele składowych widmowych ma wartość zerową, generuje się syntezowane składowe widmowe, które odpowiadają określonym składowym widmowym o wartości zerowej w określonym sygnale podpasma i które są skalowane zgodnie z obwiednią skalowania mniejszą lub równą progowi, generuje się zmodyfikowany zbiór sygnałów podpasm przez podstawienie syntezowanych składowych widmowych za odpowiednie składowe widmowe o wartości zerowej w określonym sygnale podpasma oraz generuje się informację akustyczną przez zastosowanie zestawu filtrów syntezy dla zmodyfikowanego zbioru sygnałów podpasm.
Korzystnie stosuje się obwiednię skalowania równomierną.
Korzystnie zestaw filtrów syntezy realizuje się przez transformatę blokową, która ma nieszczelność widmową pomiędzy sąsiednimi składowymi widmowymi, a obwiednię skalowania zmienia się z szybkością zasadniczo równą szybkości zmniejszania się nieszczelności widmowej transformaty blokowej.
Korzystnie zestaw filtrów syntezy realizuje się przez transformatę blokową i stosuje się filtr w domenie częstotliwości dla jednej lub więcej składowych widmowych w zbiorze sygnałów podpasm oraz odbiera się obwiednię skalowania z sygnału wyjściowego filtra w domenie częstotliwości.
Korzystnie zmienia się w funkcji częstotliwości charakterystykę filtra w domenie częstotliwości.
Korzystnie uzyskuje się miarę tonalności sygnału akustycznego, reprezentowanego przez zbiór sygnałów podpasm oraz dostosowuje się obwiednię skalowania w odpowiedzi na tę miarę tonalności.
Korzystnie miarę tonalności uzyskuje się z sygnału wejściowego.
Korzystnie miarę tonalności określa się ze sposobu rozmieszczenia składowych widmowych o wartoś ci zerowej w okreś lonym sygnale podpasma.
Korzystnie zestaw filtrów syntezy realizuje się przez transformatę blokową oraz otrzymuje się sekwencję zbiorów sygnałów podpasm z sygnału wejściowego, identyfikuje się wspólny sygnał podpasma w sekwencji zbiorów sygnałów podpasm, gdzie dla każdego zbioru w sekwencji stosuje się jedną lub więcej składowych widmowych o wartości niezerowej i wiele składowych widmowych o wartości zerowej, identyfikuje się wspólną składową widmową we wspólnym sygnale podpasma, mającą wartość zerową w wielu sąsiednich zbiorach w sekwencji, które albo poprzedza się albo po nich
PL 208 344 B1 wprowadza się zbiór ze wspólnymi składowymi widmowymi, mającymi wartość niezerową, skaluje się syntezowane składowe widmowe, odpowiadające wspólnym składowym widmowym o wartości zerowej, zgodnie z obwiednią skalowania, którą zmienia się w poszczególnych zbiorach w sekwencji zgodnie z właściwościami czasowego maskowania ludzkiego słuchu, generuje się sekwencję zmodyfikowanych zbiorów sygnałów podpasm przez podstawienie syntezowanych składowych widmowych w zbiorach za odpowiednie wspólne składowe widmowe o wartości zerowej oraz generuje się informacje akustyczne przy zastosowaniu zestawu filtrów syntezy dla sekwencji zmodyfikowanych zbiorów sygnałów podpasm.
Korzystnie zestaw filtrów syntezy realizuje się przez transformatę blokową oraz generuje się syntezowane składowe widmowe przez translację widmową innych składowych widmowych w zbiorze sygnałów podpasm.
Korzystnie obwiednię skalowania zmienia się w zależności od właściwości czasowego maskowania ludzkiego słuchu.
Zaletą wynalazku jest poprawa odbieranej jakości sygnałów akustycznych, otrzymywanych z systemów kodowania fonii, przez uniknię cie lub redukcję pogorszenia związanego z kwantowanymi do zera składowymi widmowymi.
Przedmiot wynalazku jest pokazany w przykładach wykonania na rysunku, na którym: fig. 1a przedstawia schemat blokowy kodera fonii, fig. 1b - schemat blokowy dekodera fonii, fig. 2a - 2c - graficznie przedstawienie funkcji kwantowania, fig. 3 - graficzne schematyczne przedstawienie widma hipotetycznego sygnału akustycznego, fig. 4 - graficzne schematyczne przedstawienie widma hipotetycznego sygnału akustycznego z pewnymi skł adowymi widmowymi ustawionymi na zero, fig. 5 - graficzne schematyczne przedstawienie widma hipotetycznego sygnału akustycznego z syntezowanymi składowymi widmowymi, podstawionymi za składowe widmowe o wartości zerowej, fig. 6 - graficzne schematyczne przedstawienie hipotetycznej odpowiedzi częstotliwościowej filtra w zestawie filtrów analizy, fig. 7 - graficzne schematyczne przedstawienie obwiedni skalowania, która aproksymuje spadek rozproszenia widmowego, pokazanego na fig. 6, fig. 8 - graficzne schematyczne przedstawienie obwiedni skalowania otrzymanych z sygnału wyjściowego filtra adaptacyjnego, fig. 9 - graficzne schematyczne przedstawienie widma hipotetycznego sygnału akustycznego z syntezowanymi składowymi widmowymi, waż onymi przez obwiednię skalowania, która aproksymuje spadek rozproszenia widmowego pokazanego na fig. 6, fig. 10 - graficzne schematyczne przedstawienie hipotetycznych progów maskowania psychoakustycznego, fig. 11 - graficzne schematyczne przedstawienie widma hipotetycznego sygnału akustycznego z syntezowanymi składowymi widmowymi, waż onymi przez obwiednię skalowania, która aproksymuje progi maskowania psychoakustycznego, fig. 12 - graficzne schematyczne przedstawienie hipotetycznego sygnału podpasma, fig. 13 - graficzne schematyczne przedstawienie hipotetycznego sygnału podpasma z pewnymi składowymi widmowymi ustawionymi na zero, fig. 14 - graficzne schematyczne przedstawienie hipotetycznego tymczasowego progu maskowania psychoakustycznego, fig. 15 - graficzne schematyczne przedstawienie hipotetycznego sygnału podpasma z syntezowanymi składowymi widmowymi, ważonymi przez obwiednię skalowania, która aproksymuje tymczasowe progi maskowania psychoakustycznego, fig. 16 - graficzne schematyczne przedstawienie widma hipotetycznego sygnału akustycznego z syntezowanymi składowymi widmowymi, generowanymi przez kopiowanie widmowe i fig. 17 - schemat blokowy urządzenia do realizacji różnych przykładów wykonania wynalazku w koderze lub dekoderze.
Fig. 1a i 1b przedstawiają przykłady wykonania kodera i dekodera według wynalazku, stosowanych w różnych sposobach i urządzeniach przetwarzania sygnałów, na przykład przy przetwarzaniu przeprowadzanym tylko w procesie dekodowania lub w dekoderze albo przy współdziałaniu w sposobach lub urządzeniach kodowania i dekodowania. Poniżej podano opis sposobów, które są stosowane
PL 208 344 B1 do realizacji różnych przykładów wykonania wynalazku, wraz z podaniem przeglądu typowych urządzeń, które mogą być zastosowane do realizacji tych procesów.
Fig. 1a przedstawia przykład wykonania kodera fonii z podziałem pasma, w którym zestaw filtrów 12 analizy odbiera z toru 11 informacje akustyczne, reprezentujące sygnał akustyczny, a w odpowiedzi wytwarza informacje cyfrowe, reprezentujące podpasma częstotliwości sygnału akustycznego. Informacje cyfrowe w każdym z podpasm częstotliwości są kwantowane przez urządzenia kwantujące 14, 15, 16 i podawane na koder 17, który wytwarza kodowaną reprezentację kwantowanej informacji, podawaną na urządzenie formatujące 18.
W przykładzie wykonania pokazanym na fig. 1a funkcje kwantowania w urządzeniach kwantujących 14, 15, 16 są dostosowywane w odpowiedzi na informacje sterowania kwantowaniem, odbierane z modelu 13, który generuje informacje sterowania kwantowaniem w odpowiedzi na informacje akustyczne, odbierane z toru 11. Urządzenie formatujące 18 łączy kodowaną reprezentację informacji kwantowanej i informację sterowania kwantowaniem w sygnał wyjściowy właściwy do przesyłania lub przechowywania oraz podaje ten sygnał wyjściowy wzdłuż toru 19.
Fig. 2a pokazuje przykład dla wielu zastosowań fonicznych, który stosuje funkcję q(x) kwantowania liniowego, równomiernego, chociaż żadna szczególna postać nie jest istotna dla realizacji wynalazku.
Fig. 2b i 2c przedstawiają przykłady wykonania dwóch innych funkcji q(x) kwantowania, z których każda daje wartość wyjściową równą zero dla każdej wartości wejściowej x w przedziale od wartości w punkcie 30 do wartości w punkcie 31 W wielu zastosowaniach te dwie wartości w punktach 30 i 31 mają jednakową wartość bezwzględną i przeciwny znak, jednak nie jest to konieczne, co pokazano na fig. 2b. W celu uproszczenia opisu wartość x, która jest w przedziale wartości wejściowych kwantowanych do zera (QTZ) przez określoną funkcję q(x) kwantowania, jest traktowana jako mniejsza niż minimalny poziom kwantowania tej funkcji kwantowania.
W opisie tym określenia takie, jak koder i kodowanie nie odnoszą się do żadnego określonego rodzaju przetwarzania informacji. Dla przykładu, kodowanie jest często stosowane do zmniejszenia wymaganej pojemności informacyjnej, jednakże niekoniecznie. Koder 17 może realizować zasadniczo każdy wymagany rodzaj przetwarzania. Kwantowaną informację koduje się na przykład w grupy skalowanych liczb o wspólnym współczynniku skalowania. W systemie kodowania Dolby AC-3 kwantowane składowe widmowe są zestawiane w grupy lub pasma liczb zmiennoprzecinkowych, A liczby w każdym paśmie mają wspólny wykładnik zmiennoprzecinkowy. W systemie kodowania AAC stosuje się kodowanie entropii, takie jak kodowanie Huffmana. W innych przykładach wykonania koder 17 jest wyeliminowany, a kwantowana informacja jest wprowadzana bezpośrednio do sygnału wyjściowego.
Model 13 może przeprowadzać zasadniczo każdego rodzaju przetwarzania, na przykład proces, który stosuje model psychoakustyczny dla informacji akustycznych w celu oceny wyników maskowania psychoakustycznego różnych składowych widmowych w sygnale akustycznym. Dla przykładu, model 13 może generować informacje sterowania kwantowaniem w odpowiedzi na informacje podpasma częstotliwości dostępne na wyjściu zestawu filtrów 12 analizy zamiast lub w uzupełnieniu do informacji akustycznych, dostępnych na wejściu tego zestawu filtrów 12. W innym przykładzie wykonania model 13 jest wyeliminowany, a urządzenia kwantujące 14, 15, 16 stosują funkcje kwantowania, które nie są dostosowywane.
Fig. 1b przedstawia przykład wykonania kodera fonii z podziałem pasma, w którym urządzenie deformatujące 22 odbiera z toru 21 sygnał wejściowy niosący kodowaną reprezentację kwantowanej informacji cyfrowej, reprezentującej podpasma częstotliwości sygnału akustycznego. Urządzenie deformatujące 22 odbiera kodowaną reprezentację z sygnału wejściowego i podaje ją na dekoder 23, który dekoduje kodowaną informację w podpasma częstotliwości kwantowanej informacji. Kwantowana informacja cyfrowa w każdym z podpasm częstotliwości jest poddawana dekwantowaniu przez urządzenie dekwantujące 25, 26, 27 i jest podawana jest na zestaw filtrów 28 syntezy, który generuje w torze 29 informację akustyczną, reprezentującą sygnał akustyczny. Na fig. 1b funkcje dekwantowania w urządzeniach dekwantujących 25, 26, 27 są dostosowywane w odpowiedzi na informację sterowania kwantowaniem, odbieraną z modelu 24, który wytwarza informacje sterowania kwantowaniem w odpowiedzi na informacje sterowania otrzymane przez urządzenie deformatujące 22 z sygnału wejściowego.
W opisie tym określenia takie, jak dekoder i dekodowanie nie dotyczą szczególnego rodzaju przetwarzania informacji. Dekoder 23 może realizować zasadniczo każdy rodzaj przetwarzania. Na przykład w procesie, który jest odwrotnością procesu kodowania opisanego powyżej, kwantowana
PL 208 344 B1 informacja w grupach liczb zmiennoprzecinkowych, mających wspólne wykładniki, jest dekodowana do poszczególnych kwantowanych składowych, które nie mają wspólnych wykładników. W innym przykładzie wykonania stosuje się dekodowanie entropii, takie jak dekodowanie Huffmana, a jeszcze w innym przykładzie dekoder 23 jest wyeliminowany, a kwantowaną informację otrzymuje się bezpośrednio przez urządzenie deformatujące 22.
Model 24 może realizować zasadniczo każdy rodzaj przetwarzania, na przykład proces, który stosuje model psychoakustyczny wobec informacji otrzymanej z sygnału wejściowego, aby oceniać wyniki maskowania psychoakustycznego różnych składowych widmowych w sygnale akustycznym. W innym przykładzie model 24 jest wyeliminowany, a urządzenia dekwantujące 25, 26, 27 mogą stosować funkcje kwantowania, które nie są dostosowywane albo mogą stosować funkcje kwantowania, które są dostosowywane w odpowiedzi na informację sterowania kwantowaniem, otrzymaną bezpośrednio z sygnału wejściowego przez urządzenie deformatujące 22.
Urządzenia z fig. 1a i 1b wykazują elementy składowe dla trzech podpasm częstotliwości. Chociaż w typowym zastosowaniu jest znacznie więcej podpasm.
Zestawy filtrów analizy i syntezy są realizowane w dowolny sposób, co obejmuje szeroki zakres cyfrowych technik filtrowania, transformat blokowych i transformat fal elementarnych. Zestaw filtrów 12 analizy jest realizowany na przykład przez dyskretną transformatę cosinus DCT zmodyfikowaną do transformaty kasowania aliasingu w domenie czasu (TDAC), a zestaw filtrów 28 syntezy jest realizowany przez odwrotną dyskretną transformatę cosinus (IDCT) zmodyfikowaną do transformaty kasowania aliasingu w domenie czasu (TDAC).
Zestawy filtrów analizy, które są realizowane przez transformaty blokowe, dzielą blok czy przedział sygnału wejściowego na zbiór współczynników transformacji, które reprezentują zawartość widmową tego przedziału sygnału. Grupa złożona z co najmniej jednego lub wielu sąsiednich współczynników transformacji reprezentuje zawartość widmową w określonym podpaśmie częstotliwości o szerokości pasma współmiernym z liczbą współczynników w grupie.
Zestawy filtrów analizy, które są realizowane przez filtr cyfrowy, taki jak filtr wielofazowy, a nie przez transformatę blokową, dzielą sygnał wejściowy na zbiór sygnałów podpasm. Każdy sygnał podpasma jest czasową reprezentacją zawartości widmowej sygnału wejściowego w danym podpaśmie częstotliwości. Korzystnie sygnał podpasma jest dzielony na dziesięć tak, że sygnał każdego podpasma ma szerokość pasma współmierną z liczbą próbek w sygnale podpasma w jednostkowym przedziale czasu.
Dalszy opis dotyczy bardziej szczegółowo przykładów wykonania, które stosują transformaty blokowe, takie jak wspomniana powyżej transformata kasowania aliasingu w domenie czasu. W opisie tym określenie sygnał podpasma odnosi się do grup złożonych z jednego lub więcej sąsiednich współczynników transformacji, a określenie składowe widmowe odnosi się do współczynników transformacji. Określenie sygnał podpasma można rozumieć ogólnie również jako odnoszące się do sygnału czasowego, reprezentującego zawartość widmową podpasma częstotliwości sygnału, a określenie składowe widmowe jako odnoszące się do próbek czasowego sygnału podpasma.
Fig. 3 przedstawia graficzne przedstawienie widma hipotetycznego sygnału akustycznego, który ma być kodowany przez system kodowania z transformatą. Widmo 41 reprezentuje obwiednię wartości współczynników transformacji lub składowych widmowych. Podczas procesu kodowania wszystkie składowe widmowe o wartości poniżej progu 40 są kwantowane do zera. Jeżeli stosowana jest funkcja kwantowania, taka jak funkcja q(x) pokazana na fig. 2a, próg 40 odpowiada minimalnym poziomom 30, 31. Próg 40 pokazano jako posiadający jednakową wartość w całym zakresie częstotliwości, aby ilustracja była przejrzysta, chociaż w wielu systemach kodowania tak nie jest. W percepcyjnych systemach kodowania fonii, które równomiernie kwantują składowe widmowe w sygnale każdego podpasma, przykładowo próg 40 jest niezmienny w każdym podpaśmie częstotliwości, ale ma różne wartości w różnych podpasmach. W innych przykładach wykonania próg 40 również zmienia się w podpaśmie częstotliwości.
Fig. 4 przedstawia graficzne przedstawienie widma hipotetycznego sygnału akustycznego, który jest reprezentowany przez kwantowane składowe widmowe. Widmo 42 stanowi obwiednię wartości składowych widmowych, które zostały skwantowane. Widmo to nie pokazuje wyników kwantowania składowych widmowych o wartościach większych lub równych progowi 40. Różnica pomiędzy składowymi widmowymi skwantowanymi do zera w kwantowanym sygnale i analogicznymi składowymi widmowymi w oryginalnym sygnale jest oznaczona przez zakreskowanie, a zakreskowane obszary repre8
PL 208 344 B1 zentują przerwy w widmie w postaci skwantowanej, które mają być wypełniane syntezowanymi składowymi widmowymi.
Dekoder odbiera sygnał wejściowy, który niesie kodowaną reprezentację skwantowanych sygnałów podpasm, jak to pokazano na fig. 4. Dekoder dekoduje tę kodowaną reprezentację i identyfikuje te sygnały podpasm, w których co najmniej jedna składowa widmowa ma wartość niezerową, a wiele składowych widmowych ma wartość zerową. Korzystnie zakresy częstotliwości wszystkich sygnałów podpasm są znane z góry dla dekodera albo są określane przez informację sterowania zawartą w sygnale wejściowym. Dekoder wytwarza syntezowane składowe widmowe, które odpowiadają składowym widmowym o wartości zerowej, stosując proces taki, jak opisano poniżej. Syntezowane składowe są skalowane zgodnie z obwiednią skalowania, która jest mniejsza lub równa progowi 40, a skalowane syntezowane składowe widmowe są podstawiane za składowe widmowe o wartości zerowej w sygnale podpasma. Dekoder nie wymaga żadnych informacji z kodera, które dokładnie wyznaczają poziom progu 40, jeżeli są znane minimalne poziomy 30, 31 dla funkcji q(x) kwantowania stosowanej do kwantowania składowych widmowych.
Obwiednią skalowania jest ustalana różnymi sposobami, na przykład można utworzyć złożoną obwiednię skalowania, która jest równa maksimum wszystkich obwiedni otrzymanych przy użyciu wielu sposobów albo jest otrzymywana przy użyciu różnych sposobów ustalania górnej i/lub dolnej granicy obwiedni skalowania. Sposoby te są dostosowywane lub wybierane zależnie od właściwości kodowanego sygnału oraz dostosowywane lub wybierane zależnie od częstotliwości.
Fig. 5 wyjaśnia sposób właściwy dla dekoderów w systemach kodowania fonii z transformatą i w systemach z zestawami filtrów, który polega na tym, że tworzy się równomierną obwiednię skalowania przez ustawienie jej jako równej progowi 40. Obszary zakreskowane przedstawiają przerwy w widmie, które są wypełniane syntezowanymi składowymi widmowymi. Widmo 43 reprezentuje obwiednię składowych widmowych sygnału akustycznego z przerwami w widmie, wypełnianymi syntezowanymi składowymi widmowymi. Górne granice obszarów zakreskowanych na fig. 5 i dalszych nie reprezentują rzeczywistych poziomów syntezowanych składowych widmowych, lecz reprezentują jedynie obwiednię skalowania dla syntezowanych składowych. Syntezowane składowe, które są stosowane do wypełniania przerw w widmie, mają poziomy widmowe, które nie przekraczają obwiedni skalowania.
Drugi sposób ustalania obwiedni skalowania jest dobrze dostosowany do dekoderów w systemach kodowania fonii, które stosują transformaty blokowe i wykorzystuje nierównomierną obwiednię skalowania, która zmienia się w zależności od parametrów przerw w widmie charakterystyki częstotliwościowej prototypowego filtru w transformacie blokowej.
Fig. 6 przedstawia charakterystykę 50, która jest graficznym przedstawieniem hipotetycznej charakterystyki częstotliwościowej prototypowego filtra transformaty, pokazując przerwy w widmie pomiędzy współczynnikami. Charakterystyka ta zawiera płatek główny, zwykle nazywany pasmem przepustowym filtru prototypowego oraz wiele płatków bocznych przy płatku głównym, które mają coraz mniejszy poziom dla częstotliwości oddalających od środka pasma przepustowego. Płatki boczne reprezentują energię widmową, która wydostaje się z pasma przepustowego do sąsiednich pasm częstotliwości. Szybkość, z jaką poziom tych płatków bocznych maleje, jest nazywana szybkością zmniejszania się nieszczelności widmowej.
Właściwości związane z nieszczelnością widmową filtra nakładają pewne ograniczenia na izolację widmową pomiędzy sąsiednimi podpasmami częstotliwości. Jeżeli filtr ma dużą wartość nieszczelności widmowej, wówczas poziomy widmowe w sąsiednich podpasmach nie mogą różnić się tak, jak to jest w przypadku filtrów o mniejszych wartościach nieszczelności widmowej.
Fig. 7 pokazuje obwiednię 51 stanowiącą przybliżenie rozwinięcia nieszczelności widmowej pokazanej na fig. 6. Syntezowane składowe widmowe mogą być skalowane do takiej obwiedni albo alternatywnie taka obwiednia może być stosowana jako dolna granica obwiedni skalowania, która jest otrzymywana innymi sposobami.
Fig. 8 jest graficznym przedstawieniem dwóch obwiedni skalowania, otrzymanych z wyjścia filtra adaptacyjnego w domenie częstotliwości. Przykładowo obwiednią 52 skalowania może być stosowana do wypełniania przerw w widmie sygnałów lub części sygnałów, które są uważane za bardziej podobne do fonicznych, a obwiednią 53 skalowania może być stosowana do wypełniania przerw w widmie sygnałów lub części sygnałów, które są uważane za bardziej podobne do szumu. Właściwości fonii i szumu w sygnale ocenia się różnymi sposobami, z których niektóre są omówione poniżej. Alternatywnie obwiednia 52 skalowania może być stosowana do wypełniania przerw w widmie przy dolnych
PL 208 344 B1 częstotliwościach, gdzie sygnały akustyczne są często bardziej podobne do fonii, a obwiednia 53 skalowania może być stosowana do wypełniania przerw w widmie przy wyższych częstotliwościach, gdzie sygnał akustyczny jest często bardziej podobny do szumu.
Kolejny sposób tworzenia obwiedni skalowania, stosowany w przypadku dekoderów w systemach kodowania fonii, które realizują zestawy filtrów z transformatami blokowymi i innymi rodzajami filtrów, daje nierównomierną obwiednię skalowania, która zmienia się w zależności od szacowanych wyników maskowania psychoakustycznego.
Fig. 9 pokazuje widmo 44, które jest graficznym przedstawieniem widma hipotetycznego sygnału akustycznego z syntezowanymi składowymi widmowymi, skalowanymi zgodnie z obwiednią, która aproksymuje rozwinięcie nieszczelności widmowej. Obwiednia skalowania dla przerw w widmie, które są ograniczone po każdej stronie przez energię widmową, jest złożona z dwóch oddzielnych obwiedni, po jednej dla każdej strony. Przy składaniu uwzględnia się większą z dwóch oddzielnych obwiedni.
Następny sposób tworzenia obwiedni skalowania jest również dobrze dostosowany do dekoderów w systemach kodowania fonii, które stosują transformaty blokowe, lecz jest oparty na zasadach, które mogą być stosowane w innych rodzajach zestawów filtrów. Sposób ten zapewnia nierównomierną obwiednię skalowania, która jest otrzymywana z sygnału wyjściowego filtra w domenie częstotliwości, który odnosi się do współczynników transformacji w domenie częstotliwości. Filtr taki może być filtrem prognozowym, filtrem dolnoprzepustowym lub zasadniczo filtrem dowolnego innego rodzaju, który daje żądaną obwiednię skalowania. Sposób taki zwykle wymaga większych zasobów obliczeniowych niż są wymagane w przypadku sposobów opisanych powyżej, ale umożliwia, że obwiednia skalowania zmienia się w funkcji częstotliwości.
Fig. 10 przedstawia dwa hipotetyczne progi maskowania psychoakustycznego. Próg 61 reprezentuje wyniki maskowania psychoakustycznego składowej widmowej 60 dolnej częstotliwości, a próg 64 reprezentuje wyniki maskowania psychoakustycznego składowej widmowej 63 wyższej częstotliwości. Takie progi maskowania stosuje się do otrzymywania kształtu obwiedni skalowania.
Fig. 11 pokazuje widmo 45, które jest graficznym przedstawieniem widma hipotetycznego sygnału akustycznego z podstawionymi syntezowanymi składowymi widmowymi, które są skalowane zgodnie z obwiedniami opartymi na maskowaniu psychoakustycznym. Obwiednia skalowania w przerwie w widmie przy najniższej częstotliwości jest otrzymana z dolnej części progu 61 maskowania. Obwiednia skalowania w środkowej przerwie w widmie jest złożona z górnej części progu 61 maskowania i dolnej części progu 64 maskowania. Obwiednia maskowania w przerwie w widmie przy najwyższej częstotliwości jest otrzymana z górnej części progu 64 maskowania.
Kolejny sposób określania obwiedni skalowania jest oparty na ocenie tonalności całego sygnału akustycznego lub części tego sygnału, takiej jak jeden lub więcej sygnałów podpasm. Tonalność ocenia się wieloma sposobami, obejmującymi obliczanie miary płaskości widmowej, która jest normalizowanym ilorazem średniej arytmetycznej próbek sygnału, podzielonej przez średnią geometryczną próbek sygnału. Wartość bliska jedności oznacza, że sygnał jest bardzo podobny do szumu, a wartość bliska zeru oznacza, że sygnał jest bardzo podobny do tonu. Miarę płaskości widmowej wykorzystuje się bezpośrednio do dostosowania obwiedni skalowania. Gdy miara płaskości widmowej jest równa zero, żadnych składowych syntezowanych nie stosuje się do wypełniania przerwy w widmie. Kiedy miara płaskości widmowej jest równa jedności, maksymalny dozwolony poziom składowych syntezowanych stosuje się do wypełniania przerwy w widmie. Zwykle jednak koder może obliczyć lepszą miarę płaskości widmowej, ponieważ ma dostęp do całego oryginalnego sygnału akustycznego przed kodowaniem. Istnieje prawdopodobieństwo, że dekoder nie obliczy dokładnej miary płaskości widmowej ze względu na obecność składowych widmowych kwantowanych do zera.
Dekoder może również oceniać tonalność przez analizowanie rozmieszczenia lub rozkładu składowych widmowych o wartości niezerowej i o wartości zerowej. W jednym przykładzie wykonania sygnał jest uważany za bardziej podobny do tonu niż do szumu, jeżeli długie ciągi składowych widmowych o wartości zerowej są usytuowane pomiędzy niewieloma dużymi składowymi o wartości niezerowej, ponieważ takie rozmieszczenie powoduje strukturę z pikami widmowymi.
W jeszcze innym przykładzie wykonania dekoder stosuje filtr prognozowania do jednego lub wielu sygnałów podpasm i określa prognozowane wzmocnienie. Sygnał taki jest uważany za bardziej podobny do tonu, gdy przewidywane wzmocnienie wzrasta.
Fig. 12 jest graficznym przedstawieniem hipotetycznego sygnału podpasma, który ma być kodowany. Linia 46 reprezentuje tymczasową obwiednię wartości składowych widmowych. Taki sygnał podpasma może być złożony ze wspólnego składnika widmowego lub współczynnika transformacji
PL 208 344 B1 w sekwencji bloków otrzymanych z zestawu filtrów analizy, realizowanego przez transformatę blokową, albo też może być sygnałem podpasma, otrzymanym z innego rodzaju zestawu filtrów analizy, realizowanego przez filtr cyfrowy inny niż transformata blokowa, taka jak filtr zwierciadła kwadraturowego. Podczas kodowania wszystkie składowe widmowe o wartości mniejszej niż próg 40 są kwantowane do zera. Próg 40 pokazano dla uproszczenia jako posiadający jednakową wartość w całym przedziale czasu. Zwykle nie ma to miejsca w wielu systemach kodowania, które stosują zestawy filtrów realizowanych przez transformaty blokowe.
Fig. 13 jest graficznym przedstawieniem hipotetycznego sygnału podpasma, który jest reprezentowany przez kwantowane składowe widmowe. Linia 47 reprezentuje obwiednię czasową wartości składowych widmowych, które zostały skwantowane. Linia pokazana na fig. 13 i dalszych nie przedstawia wyników składowych widmowych o wartościach większych lub równych progowi 40. Różnica pomiędzy składowymi widmowymi kwantowanymi do zera w kwantowanym sygnale i analogicznymi składowymi widmowymi w oryginalnym sygnale jest oznaczona przez zakreskowanie. Zakreskowany obszar przedstawia przerwę w widmie w przedziale czasu, którą należy wypełnić syntezowanymi składowymi widmowymi.
W jednym przykładzie wykonania wynalazku dekoder odbiera sygnał wejściowy, który przenosi kodowaną reprezentację kwantowanych sygnałów podpasm, jak to pokazano na fig. 13. Dekoder dekoduje kodowaną reprezentację i identyfikuje te sygnały podpasm, w których wiele składowych widmowych ma wartość zerową i są one poprzedzone i/lub następują po nich składowe widmowe o wartościach niezerowych. Dekoder generuje syntezowane składowe widmowe, które odpowiadają składowym widmowym o wartości zerowej, stosując proces opisany poniżej. Syntezowane składowe są skalowane zgodnie z obwiednią skalowania. Korzystnie obwiednia skalowania uwzględnia właściwości maskowania czasowego ludzkiego słuchu.
Fig. 14 przedstawia hipotetyczny próg czasowego maskowania psychoakustycznego. Próg 68 reprezentuje wyniki czasowego maskowania psychoakustycznego składowej widmowej 67. Część progu po lewej stronie składowej widmowej 67 reprezentuje właściwości poprzedniego maskowania czasowego lub maskowania, które poprzedza wystąpienie składowej widmowej. Część progu po prawej stronie składowej widmowej 67 reprezentuje właściwości następnego maskowania czasowego lub maskowania, które następuje po wystąpieniu składowej widmowej. Wyniki maskowania następnego zwykle mają czas trwania znacznie dłuższy niż czas trwania wyników maskowania poprzedniego. Taki próg maskowania czasowego jest stosowany na przykład do otrzymywania kształtu czasowego obwiedni skalowania.
Fig. 15 pokazuje linię 48, która jest graficznym przedstawieniem hipotetycznego sygnału podpasma z zastępczymi, syntezowanymi składowymi widmowymi, które są skalowane zgodnie z obwiedniami w oparciu o wyniki czasowego maskowania psychoakustycznego. Obwiednia skalowania jest złożona z dwóch oddzielnych obwiedni: oddzielna obwiednia dla niskoczęstotliwościowej części przerwy w widmie jest otrzymana z części progu 68, odpowiadającej maskowaniu następnemu i oddzielna obwiednia dla wysokoczęstotliwościowej części przerwy w widmie jest otrzymana z części progu 68, odpowiadającej maskowaniu poprzedniemu.
Syntezowane składowe widma są generowane różnymi sposobami, których dwa są opisane poniżej. Przykładowo można wybierać sposoby w zależności od właściwości kodowanego sygnału lub w zależności od częstotliwości. Pierwszy sposób powoduje generowanie sygnału podobnego do szumu. Drugi sposób stosuje technikę zwaną translacją widmową lub replikacją widmową, która kopiuje składowe widmowe z jednego lub wielu podpasm częstotliwości. Składowe widmowe niskiej częstotliwości są zwykle kopiowane w celu wypełnienia przerw w widmie przy wyższych częstotliwościach, ponieważ składowe wyższej częstotliwości są często związane w pewien sposób ze składowymi niskiej częstotliwości. Składowe widmowe mogą być kopiowane do wyższych lub niższych częstotliwości.
Fig. 16 pokazuje widmo 49, które jest graficznym przedstawieniem widma hipotetycznego sygnału akustycznego z syntezowanymi składowymi widmowymi, generowanymi przez kopiowanie widmowe. Część piku widmowego jest kopiowana do dołu i do góry w widmie częstotliwości wielokrotnie w celu wypełnienia przerw w widmie przy niskich i średnich częstotliwościach. Część składowych widmowych blisko wysokoczęstotliwościowego końca widma jest kopiowana do góry w widmie częstotliwości, aby wypełnić przerwę w widmie przy górnym końcu widma. Kopiowane składowe są skalowane za pomocą równomiernej obwiedni skalowania, chociaż użyć zasadniczo każdej postaci obwiedni skalowania.
PL 208 344 B1
Fig. 17 przedstawia schemat blokowy urządzenia wykonawczego 70 do realizacji różnych przykładów wykonania wynalazku w koderze fonii lub w dekoderze fonii. Procesor DSP 72 sygnałów cyfrowych, stanowiący urządzenie liczące, jest dołączony do pamięci RAM 73 o dostępie swobodnym, do pamięci ROM 74 będącej pamięcią trwałą, taką jak pamięć stała do przechowywania programów potrzebnych do działania urządzenia wykonawczego 70, i do zespołu 75 wejścia/wyjścia, który jest obwodem sprzęgającym do odbierania i wysyłania sygnałów za pośrednictwem kanałów telekomunikacyjnych 76, TL- W zespole sterowania 75 wejścia/wyjścia mogą być zawarte przetworniki analogowo-cyfrowe i przetworniki cyfrowo-analogowe do odbioru i/lub nadawania analogowych sygnałów akustycznych. Wszystkie ważniejsze części składowe systemu są dołączone do magistrali 71, która może stanowić więcej niż jedną magistralę fizyczną.
W przykładach wykonania w systemie komputerowym ogólnego przeznaczenia są zawarte dodatkowe części składowe do dołączania urządzeń, takich jak klawiatura lub mysz i monitor, oraz do sterowania pamięcią z nośnikiem pamięci, takim jak taśma lub dysk magnetyczny albo nośnik optyczny. Pamięć jest na przykład stosowana do zapisywania programów złożonych z poleceń dla systemów operacyjnych, programów usługowych i programów użytkowych oraz obejmuje na przykład, przykłady wykonania programów do realizacji przykładów wykonania wynalazku.
Funkcje wymagane do praktycznej realizacji przykładów wykonania wynalazku są zapewniane przez części składowe, łącznie z dyskretnymi elementami logicznymi, specjalistycznymi obwodami scalonymi i/lub procesorami sterowanymi za pomocą programu.
Wynalazek jest realizowany przy pomocy komputera, przy użyciu nośników czytelnych dla komputera, takich jak tory łączności w paśmie podstawowym lub modulowane w widmie od częstotliwości naddźwiękowych do ultrafioletu, albo nośników pamięciowych do przenoszenia informacji przy użyciu dowolnej techniki zapisu magnetycznego lub optycznego, łącznie z taśmą magnetyczną, dyskiem magnetycznym i dyskiem optycznym. Wynalazek jest realizowany przy użyciu różnych elementów składowych urządzenia wykonawczego 70 w postaci systemu komputerowego, za pomocą układu przetwarzającego, takiego jak specjalistyczny układ scalony, układy scalone ogólnego przeznaczenia, mikroprocesory sterowane programami zawartymi w różnych pamięciach stałych lub pamięciach o dostępie swobodnym, jak również innymi technikami.
Dekoder nie wymaga żadnego specjalnego przetwarzania czy też informacji z kodera ani też nie wymaga modyfikacji w istniejących koderach. Koder jest modyfikowany tak, aby zapewnić dodatkowe informacje sterowania, które są wykorzystywane do dostosowania sposobu generowania i skalowania syntezowanych składowych widmowych w dekoderze.
Koder dostarcza wielu różnych informacji sterowania skalowaniem, które dekoder wykorzystuje w celu dostosowania obwiedni skalowania do syntezowanych składowych widmowych. Każdy z przykładów omówionych poniżej może być zastosowany do całego sygnału i/lub do podpasm częstotliwości sygnału.
Jeżeli podpasmo zawiera składowe widmowe, które są znacznie poniżej minimalnego poziomu kwantowania, koder może przekazać do dekodera informacje, które oznaczają ten stan. Informacje takie są w rodzaju wskaźnika, który dekoder wykorzystuje do dokonania wyboru spośród dwóch lub więcej poziomów skalowania albo też informacje przenoszą miarę poziomu widmowego, taką jak moc średnia lub średnia kwadratowa. Dekoder dostosowuje obwiednię skalowania w odpowiedzi na te informacje.
Dekoder może więc dostosować obwiednię skalowania w odpowiedzi na wyniki maskowania psychoakustycznego ocenione na podstawie samego kodowanego sygnału. Możliwe jest dokonanie przez koder lepszej oceny wyników maskowania, gdy koder ma dostęp do właściwości sygnału, które zostały utracone wskutek procesu kodowania. Można to zrealizować przez użycie modelu 13 z fig. 1a, który przekazuje do urządzenia formatującego 18 informacje psychoakustyczne, których nie można by było uzyskać z kodowanego sygnału. Wykorzystując tego rodzaju informacje, dekoder jest zdolny dostosować obwiednię skalowania do kształtu syntezowanych składowych widmowych zgodnie z jednym lub wieloma kryteriami psychoakustycznymi.
Obwiednia skalowania jest również dostosowywana w odpowiedzi na ocenę jakości sygnału lub sygnału podpasma podobnego do szumu lub podobnego do tonu. Taką ocenę przeprowadza się kilkoma sposobami, albo za pomocą kodera albo za pomocą dekodera, jednak zwykle koder jest w stanie dokonać lepszej oceny. Wyniki takiej oceny można wprowadzić do kodowanego sygnału. Ocenę miary płaskości widmowej opisano powyżej.
PL 208 344 B1
Wskazanie miary płaskości widmowej jest również stosowane przez dekoder do wybierania, jakiego procesu użyć do generowania syntezowanych składowych widmowych. Jeżeli miara płaskości widmowej jest bliska jedności, stosuje się technikę generacji szumu. Jeżeli miara płaskości widmowej jest bliska zeru, stosuje się technikę replikacji widmowej.
Koder dostarcza wskazanie mocy dla niezerowych i kwantowanych do zera składowych widmowych, na przykład stosunek tych dwóch mocy. Dekoder oblicza moc niezerowych składowych widmowych, a następnie wykorzystuje ten stosunek lub inne wskazanie do dostosowania obwiedni skalowania.
W powyższym omówieniu występowały wzmianki dotyczące składowych widmowych o wartości zerowej jako składowych kwantowanych do zera, co nie jest istotne. Wartość składowych widmowych w kodowanym sygnale jest ustawiana na zero dowolnym sposobem. Dla przykładu, koder identyfikuje jedną największą lub dwie największe składowe widmowe w każdym sygnale podpasma powyżej określonej częstotliwości i ustawia wszystkie inne składowe widmowe w tych sygnałach podpasm na zero. Alternatywnie koder ustawia na zero wszystkie składowe widmowe w podpasmach, które leżą poniżej progu. Dekoder jest zdolny do wypełniania przerw w widmie niezależnie od procesu, który jest odpowiedzialny za ich powstanie.
Claims (15)
1. Sposób kodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacji, znamienny tym, że generuje się zbiór sygnałów podpasm, z których każdy ma jedną lub więcej składowych widmowych, reprezentujących zawartość widmową sygnału akustycznego, przez kwantowanie informacji otrzymanych przez zastosowanie zestawu filtrów analizy dla informacji akustycznej i generuje się sygnał wyjściowy przez zestawienie informacji reprezentującej zbiór sygnałów podpasma, identyfikuje się w zbiorze sygnałów podpasma określony sygnał podpasma, w którym jedna lub więcej składowych widmowych ma wartość niezerową i kwantuje się je za pomocą urządzenia kwantującego, mającego minimalny poziom kwantowania, który odpowiada progowi, przy czym wiele składowych widmowych ma wartość zerową, odbiera się informacje sterowania skalowaniem z zawartości widmowej sygnału akustycznego, a za pomocą informacji sterowania skalowaniem steruje się skalowaniem syntezowanych składowych widmowych, które mają zostać zsyntezowane i podstawione za składowe widmowe o wartości zerowej w odbiorniku, przez który generuje się informację akustyczną w odpowiedzi na sygnał wyjściowy oraz zestawia się informację sterowania skalowaniem z informacji reprezentującej zbiór sygnałów podpasm dla wytwarzania sygnału wyjściowego.
2. Sposób według zastrz. 1, znamienny tym, że odbiera się miarę tonalności sygnału akustycznego, reprezentowanego przez zbiór sygnałów podpasm oraz otrzymuje się z tej miary tonalności informacje sterowania skalowaniem.
3. Sposób według zastrz. 1 albo 2, znamienny tym, że odbiera się oceniony próg maskowania psychoakustycznego sygnału akustycznego, reprezentowanego przez zbiór sygnałów podpasm oraz otrzymuje się z tego ocenionego progu maskowania psychoakustycznego informacje sterowania skalowaniem.
4. Sposób według zastrz. 3, znamienny tym, że odbiera się dwie miary poziomów widmowych części sygnału akustycznego, reprezentowanych przez składowe widmowe o wartości niezerowej i wartości zerowej oraz otrzymuje się z tych dwóch miar poziomów widmowych informacje sterowania skalowaniem.
5. Sposób dekodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacji, znamienny tym, że odbiera się sygnał wejściowy i otrzymuje się z niego zbiór sygnałów podpasm, z których każdy ma jedną lub więcej składowych widmowych, reprezentujących zawartość widmową sygnału akustycznego, identyfikuje się w tym zbiorze sygnałów podpasm określony sygnał podpasma, w którym jedna lub więcej składowych widmowych ma wartość niezerową i kwantuje się go za pomocą urządzenia kwantującego, mającego minimalny poziom kwantowania, który odpowiada progowi i w którym wiele składowych widmowych ma wartość zerową, generuje się syntezowane składowe widmowe, które odpowiadają określonym składowym widmowym o wartości zerowej w okreś lonym sygnale podpasma i które są skalowane zgodnie z obwiednią skalowania mniejszą lub równą progowi, generuje się zmodyfikowany zbiór sygnałów podpasm przez podstawienie syntezowanych składowych widmowych za odpowiednie składowe widmowe o wartości zerowej w określonym
PL 208 344 B1 sygnale podpasma oraz generuje się informację akustyczną przez zastosowanie zestawu filtrów syntezy dla zmodyfikowanego zbioru sygnałów podpasm.
6. Sposób według zastrz. 5, znamienny tym, że stosuje się obwiednię skalowania równomierną.
7. Sposób według zastrz. 5 albo 6, znamienny tym, że zestaw filtrów syntezy realizuje się przez transformatę blokową, która ma nieszczelność widmową pomiędzy sąsiednimi składowymi widmowymi, a obwiednię skalowania zmienia się z szybkością zasadniczo równą szybkości zmniejszania się nieszczelności widmowej transformaty blokowej.
8. Sposób według zastrz. 7, znamienny tym, że zestaw filtrów syntezy realizuje się przez transformatę blokową i stosuje się filtr w domenie częstotliwości dla jednej lub więcej składowych widmowych w zbiorze sygnałów podpasm oraz odbiera się obwiednię skalowania z sygnału wyjściowego filtra w domenie częstotliwości.
9. Sposób według zastrz. 8, znamienny tym, że zmienia się w funkcji częstotliwości charakterystykę filtra w domenie częstotliwości.
10. Sposób według zastrz. 8 albo 9, znamienny tym, że uzyskuje się miarę tonalności sygnału akustycznego, reprezentowanego przez zbiór sygnałów podpasm oraz dostosowuje się obwiednię skalowania w odpowiedzi na tę miarę tonalności.
11. Sposób według zastrz. 10, znamienny tym, że miarę tonalności uzyskuje się z sygnału wejściowego.
12. Sposób według zastrz. 10, znamienny tym, że miarę tonalności określa się ze sposobu rozmieszczenia składowych widmowych o wartości zerowej w określonym sygnale podpasma.
13. Sposób według zastrz. 11 albo 12, znamienny tym, że zestaw filtrów syntezy realizuje się przez transformatę blokową oraz otrzymuje się sekwencję zbiorów sygnałów podpasm z sygnału wejściowego, identyfikuje się wspólny sygnał podpasma w sekwencji zbiorów sygnałów podpasm, gdzie dla każdego zbioru w sekwencji stosuje się jedną lub więcej składowych widmowych o wartości niezerowej i wiele składowych widmowych o wartości zerowej, identyfikuje się wspólną składową widmową we wspólnym sygnale podpasma, mającą wartość zerową w wielu sąsiednich zbiorach w sekwencji, które albo poprzedza się albo po nich wprowadza się zbiór ze wspólnymi składowymi widmowymi, mającymi wartość niezerową, skaluje się syntezowane składowe widmowe, odpowiadające wspólnym składowym widmowym o wartości zerowej, zgodnie z obwiednią skalowania, którą zmienia się w poszczególnych zbiorach w sekwencji zgodnie z właściwościami czasowego maskowania ludzkiego słuchu, generuje się sekwencję zmodyfikowanych zbiorów sygnałów podpasm przez podstawienie syntezowanych składowych widmowych w zbiorach za odpowiednie wspólne składowe widmowe o wartości zerowej oraz generuje się informacje akustyczne przy zastosowaniu zestawu filtrów syntezy dla sekwencji zmodyfikowanych zbiorów sygnałów podpasm.
14. Sposób według zastrz. 13, znamienny tym, że zestaw filtrów syntezy realizuje się przez transformatę blokową oraz generuje się syntezowane składowe widmowe przez translację widmową innych składowych widmowych w zbiorze sygnałów podpasm.
15. Sposób według zastrz. 13, znamienny tym, że obwiednię skalowania zmienia się w zależności od właściwości czasowego maskowania ludzkiego słuchu.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/174,493 US7447631B2 (en) | 2002-06-17 | 2002-06-17 | Audio coding system using spectral hole filling |
Publications (2)
Publication Number | Publication Date |
---|---|
PL372104A1 PL372104A1 (pl) | 2005-07-11 |
PL208344B1 true PL208344B1 (pl) | 2011-04-29 |
Family
ID=29733607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PL372104A PL208344B1 (pl) | 2002-06-17 | 2003-05-30 | Sposób kodowania sygnałów akustycznych i sposób dekodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacji |
Country Status (20)
Country | Link |
---|---|
US (4) | US7447631B2 (pl) |
EP (6) | EP2209115B1 (pl) |
JP (6) | JP4486496B2 (pl) |
KR (5) | KR100991448B1 (pl) |
CN (1) | CN100369109C (pl) |
AT (7) | ATE349754T1 (pl) |
CA (6) | CA2489441C (pl) |
DE (3) | DE60310716T8 (pl) |
DK (3) | DK1514261T3 (pl) |
ES (1) | ES2275098T3 (pl) |
HK (6) | HK1070729A1 (pl) |
IL (2) | IL165650A (pl) |
MX (1) | MXPA04012539A (pl) |
MY (2) | MY159022A (pl) |
PL (1) | PL208344B1 (pl) |
PT (1) | PT2216777E (pl) |
SG (3) | SG2014005300A (pl) |
SI (2) | SI2209115T1 (pl) |
TW (1) | TWI352969B (pl) |
WO (1) | WO2003107328A1 (pl) |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
DE10134471C2 (de) * | 2001-02-28 | 2003-05-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
AU2003242903A1 (en) * | 2002-07-08 | 2004-01-23 | Koninklijke Philips Electronics N.V. | Audio processing |
US7889783B2 (en) * | 2002-12-06 | 2011-02-15 | Broadcom Corporation | Multiple data rate communication system |
KR101164937B1 (ko) | 2003-05-28 | 2012-07-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
CA2555182C (en) * | 2004-03-12 | 2011-01-04 | Nokia Corporation | Synthesizing a mono audio signal based on an encoded multichannel audio signal |
KR101143724B1 (ko) * | 2004-05-14 | 2012-05-11 | 파나소닉 주식회사 | 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치 |
EP1742202B1 (en) * | 2004-05-19 | 2008-05-07 | Matsushita Electric Industrial Co., Ltd. | Encoding device, decoding device, and method thereof |
CN101006496B (zh) * | 2004-08-17 | 2012-03-21 | 皇家飞利浦电子股份有限公司 | 可分级音频编码 |
JP2008513845A (ja) * | 2004-09-23 | 2008-05-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声データを処理するシステム及び方法、プログラム要素並びにコンピュータ読み取り可能媒体 |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
CN101048935B (zh) | 2004-10-26 | 2011-03-23 | 杜比实验室特许公司 | 控制音频信号的单位响度或部分单位响度的方法和设备 |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
KR100707173B1 (ko) * | 2004-12-21 | 2007-04-13 | 삼성전자주식회사 | 저비트율 부호화/복호화방법 및 장치 |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
US20070053603A1 (en) * | 2005-09-08 | 2007-03-08 | Monro Donald M | Low complexity bases matching pursuits data coding and decoding |
US8121848B2 (en) * | 2005-09-08 | 2012-02-21 | Pan Pacific Plasma Llc | Bases dictionary for low complexity matching pursuits data coding and decoding |
US7848584B2 (en) * | 2005-09-08 | 2010-12-07 | Monro Donald M | Reduced dimension wavelet matching pursuits coding and decoding |
US7813573B2 (en) * | 2005-09-08 | 2010-10-12 | Monro Donald M | Data coding and decoding with replicated matching pursuits |
US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
JP5185254B2 (ja) | 2006-04-04 | 2013-04-17 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Mdct領域におけるオーディオ信号音量測定と改良 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
WO2007121778A1 (en) * | 2006-04-24 | 2007-11-01 | Nero Ag | Advanced audio coding apparatus |
AU2007243586B2 (en) | 2006-04-27 | 2010-12-23 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US20070270987A1 (en) * | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
WO2008051347A2 (en) | 2006-10-20 | 2008-05-02 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
AU2012261547B2 (en) * | 2007-03-09 | 2014-04-17 | Skype | Speech coding system and method |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CN101790758B (zh) | 2007-07-13 | 2013-01-09 | 杜比实验室特许公司 | 用于控制音频信号的信号处理的设备和方法 |
CN101939782B (zh) * | 2007-08-27 | 2012-12-05 | 爱立信电话股份有限公司 | 噪声填充与带宽扩展之间的自适应过渡频率 |
ES2774956T3 (es) | 2007-08-27 | 2020-07-23 | Ericsson Telefon Ab L M | Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales |
RU2469423C2 (ru) * | 2007-09-12 | 2012-12-10 | Долби Лэборетериз Лайсенсинг Корпорейшн | Повышение разборчивости речи с помощью четкости голоса |
JP4970596B2 (ja) * | 2007-09-12 | 2012-07-11 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 雑音レベル推定値の調節を備えたスピーチ強調 |
US8249883B2 (en) | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
WO2009084918A1 (en) * | 2007-12-31 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
PL2311033T3 (pl) | 2008-07-11 | 2012-05-31 | Fraunhofer Ges Forschung | Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem |
EP4372744A1 (en) | 2008-07-11 | 2024-05-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
WO2010016271A1 (ja) * | 2008-08-08 | 2010-02-11 | パナソニック株式会社 | スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法 |
WO2010028297A1 (en) | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
WO2010028299A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
EP2182513B1 (en) * | 2008-11-04 | 2013-03-20 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
TWI716833B (zh) * | 2009-02-18 | 2021-01-21 | 瑞典商杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
TWI618350B (zh) | 2009-02-18 | 2018-03-11 | 杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
KR101078378B1 (ko) * | 2009-03-04 | 2011-10-31 | 주식회사 코아로직 | 오디오 부호화기의 양자화 방법 및 장치 |
KR101320963B1 (ko) * | 2009-03-31 | 2013-10-23 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템 |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
RU2605677C2 (ru) | 2009-10-20 | 2016-12-27 | Франхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
PL2524372T3 (pl) | 2010-01-12 | 2015-08-31 | Fraunhofer Ges Forschung | Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych |
CA3225485A1 (en) | 2010-01-19 | 2011-07-28 | Dolby International Ab | Improved subband block based harmonic transposition |
TWI557723B (zh) | 2010-02-18 | 2016-11-11 | 杜比實驗室特許公司 | 解碼方法及系統 |
WO2011121955A1 (ja) | 2010-03-30 | 2011-10-06 | パナソニック株式会社 | オーディオ装置 |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
WO2011156905A2 (en) * | 2010-06-17 | 2011-12-22 | Voiceage Corporation | Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands |
US9236063B2 (en) | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
JP5695074B2 (ja) * | 2010-10-18 | 2015-04-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声符号化装置および音声復号化装置 |
CN105225669B (zh) | 2011-03-04 | 2018-12-21 | 瑞典爱立信有限公司 | 音频编码中的后量化增益校正 |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
US8838442B2 (en) | 2011-03-07 | 2014-09-16 | Xiph.org Foundation | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
US9015042B2 (en) * | 2011-03-07 | 2015-04-21 | Xiph.org Foundation | Methods and systems for avoiding partial collapse in multi-block audio coding |
ES2559040T3 (es) | 2011-03-10 | 2016-02-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Relleno de subvectores no codificados en señales de audio codificadas por transformada |
EP3067888B1 (en) * | 2011-04-15 | 2017-05-31 | Telefonaktiebolaget LM Ericsson (publ) | Decoder for attenuation of signal regions reconstructed with low accuracy |
JP6189831B2 (ja) | 2011-05-13 | 2017-08-30 | サムスン エレクトロニクス カンパニー リミテッド | ビット割り当て方法及び記録媒体 |
US9264094B2 (en) * | 2011-06-09 | 2016-02-16 | Panasonic Intellectual Property Corporation Of America | Voice coding device, voice decoding device, voice coding method and voice decoding method |
JP2013007944A (ja) | 2011-06-27 | 2013-01-10 | Sony Corp | 信号処理装置、信号処理方法、及び、プログラム |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
WO2013188562A2 (en) * | 2012-06-12 | 2013-12-19 | Audience, Inc. | Bandwidth extension via constrained synthesis |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
CN103854653B (zh) * | 2012-12-06 | 2016-12-28 | 华为技术有限公司 | 信号解码的方法和设备 |
PT2939235T (pt) * | 2013-01-29 | 2017-02-07 | Fraunhofer Ges Forschung | Quantização de sinal de áudio de tonalidade adaptativa de baixa complexidade |
CN105264597B (zh) | 2013-01-29 | 2019-12-10 | 弗劳恩霍夫应用研究促进协会 | 感知转换音频编码中的噪声填充 |
EP3217398B1 (en) | 2013-04-05 | 2019-08-14 | Dolby International AB | Advanced quantizer |
JP6157926B2 (ja) * | 2013-05-24 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法およびプログラム |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
EP2830055A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
EP2830060A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling in multichannel audio coding |
JP6531649B2 (ja) | 2013-09-19 | 2019-06-19 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
BR112016014476B1 (pt) | 2013-12-27 | 2021-11-23 | Sony Corporation | Aparelho e método de decodificação, e, meio de armazenamento legível por computador |
EP2919232A1 (en) * | 2014-03-14 | 2015-09-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and method for encoding and decoding |
JP6035270B2 (ja) | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
RU2572664C2 (ru) * | 2014-06-04 | 2016-01-20 | Российская Федерация, От Имени Которой Выступает Министерство Промышленности И Торговли Российской Федерации | Устройство активного гашения вибрации |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
JP7118642B2 (ja) | 2014-08-08 | 2022-08-16 | アリ リサーチ ソシエタ ア レスポンサビリタ リミタータ センプリフィカタ | 炎症性およびアレルギー性病変の治療に用いるための脂肪酸とパルミトイルエタノールアミドの混合物 |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
US10460736B2 (en) * | 2014-11-07 | 2019-10-29 | Samsung Electronics Co., Ltd. | Method and apparatus for restoring audio signal |
US9875756B2 (en) | 2014-12-16 | 2018-01-23 | Psyx Research, Inc. | System and method for artifact masking |
US9668048B2 (en) | 2015-01-30 | 2017-05-30 | Knowles Electronics, Llc | Contextual switching of microphones |
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US10553228B2 (en) * | 2015-04-07 | 2020-02-04 | Dolby International Ab | Audio coding with range extension |
US20170024495A1 (en) * | 2015-07-21 | 2017-01-26 | Positive Grid LLC | Method of modeling characteristics of a musical instrument |
MX2018010753A (es) * | 2016-03-07 | 2019-01-14 | Fraunhofer Ges Forschung | Método de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio. |
DE102016104665A1 (de) * | 2016-03-14 | 2017-09-14 | Ask Industries Gmbh | Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals |
JP2018092012A (ja) * | 2016-12-05 | 2018-06-14 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2018106088A1 (ko) * | 2016-12-09 | 2018-06-14 | 주식회사 엘지화학 | 밀봉재 조성물 |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
EP3544005B1 (en) | 2018-03-22 | 2021-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding with dithered quantization |
EP3662469A4 (en) | 2018-04-25 | 2020-08-19 | Dolby International AB | INTEGRATION OF HIGH FREQUENCY RECONSTRUCTION TECHNIQUES WITH REDUCED POST-PROCESSING DELAY |
KR20210005164A (ko) | 2018-04-25 | 2021-01-13 | 돌비 인터네셔널 에이비 | 고주파 오디오 재구성 기술의 통합 |
WO2023118600A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using different noise filling methods |
WO2023117145A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using different noise filling methods |
WO2023117146A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering |
WO2023118605A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering |
Family Cites Families (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US36478A (en) * | 1862-09-16 | Improved can or tank for coal-oil | ||
US3995115A (en) | 1967-08-25 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Speech privacy system |
US3684838A (en) | 1968-06-26 | 1972-08-15 | Kahn Res Lab | Single channel audio signal transmission system |
JPS6011360B2 (ja) | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
US4667340A (en) | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
US4790016A (en) | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
WO1986003873A1 (en) | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
US4885790A (en) | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4935963A (en) | 1986-01-24 | 1990-06-19 | Racal Data Communications Inc. | Method and apparatus for processing speech signals |
JPS62234435A (ja) | 1986-04-04 | 1987-10-14 | Kokusai Denshin Denwa Co Ltd <Kdd> | 符号化音声の復号化方式 |
EP0243562B1 (en) | 1986-04-30 | 1992-01-29 | International Business Machines Corporation | Improved voice coding process and device for implementing said process |
US4776014A (en) | 1986-09-02 | 1988-10-04 | General Electric Company | Method for pitch-aligned high-frequency regeneration in RELP vocoders |
US5054072A (en) | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US5127054A (en) | 1988-04-29 | 1992-06-30 | Motorola, Inc. | Speech quality improvement for voice coders and synthesizers |
JPH02183630A (ja) * | 1989-01-10 | 1990-07-18 | Fujitsu Ltd | 音声符号化方式 |
US5109417A (en) | 1989-01-27 | 1992-04-28 | Dolby Laboratories Licensing Corporation | Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio |
US5054075A (en) | 1989-09-05 | 1991-10-01 | Motorola, Inc. | Subband decoding method and apparatus |
CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
ES2087522T3 (es) | 1991-01-08 | 1996-07-16 | Dolby Lab Licensing Corp | Descodificacion/codificacion para campos sonoros multidimensionales. |
JP3134337B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル信号符号化方法 |
EP0551705A3 (en) * | 1992-01-15 | 1993-08-18 | Ericsson Ge Mobile Communications Inc. | Method for subbandcoding using synthetic filler signals for non transmitted subbands |
JP2563719B2 (ja) | 1992-03-11 | 1996-12-18 | 技術研究組合医療福祉機器研究所 | 音声加工装置と補聴器 |
JP2693893B2 (ja) | 1992-03-30 | 1997-12-24 | 松下電器産業株式会社 | ステレオ音声符号化方法 |
JP3508146B2 (ja) * | 1992-09-11 | 2004-03-22 | ソニー株式会社 | ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置 |
JP3127600B2 (ja) * | 1992-09-11 | 2001-01-29 | ソニー株式会社 | ディジタル信号復号化装置及び方法 |
US5402124A (en) * | 1992-11-25 | 1995-03-28 | Dolby Laboratories Licensing Corporation | Encoder and decoder with improved quantizer using reserved quantizer level for small amplitude signals |
US5394466A (en) * | 1993-02-16 | 1995-02-28 | Keptel, Inc. | Combination telephone network interface and cable television apparatus and cable television module |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
JPH07225598A (ja) | 1993-09-22 | 1995-08-22 | Massachusetts Inst Of Technol <Mit> | 動的に決定された臨界帯域を用いる音響コード化の方法および装置 |
JP3186489B2 (ja) * | 1994-02-09 | 2001-07-11 | ソニー株式会社 | ディジタル信号処理方法及び装置 |
JP3277682B2 (ja) * | 1994-04-22 | 2002-04-22 | ソニー株式会社 | 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 |
KR960704300A (ko) * | 1994-05-25 | 1996-08-31 | 이데이 노부유키 | 부호화 방법, 복호화 방법, 부호화/복호화 방법, 부호화 장치, 복호화 장치 및 부호화/복호화 장치(Encoding method, decoding method, encoding/decoding method, encoding apparatus, decoding apparatus, and encoding/decoding apparatus) |
US5748786A (en) * | 1994-09-21 | 1998-05-05 | Ricoh Company, Ltd. | Apparatus for compression using reversible embedded wavelets |
JP3254953B2 (ja) | 1995-02-17 | 2002-02-12 | 日本ビクター株式会社 | 音声高能率符号化装置 |
DE19509149A1 (de) | 1995-03-14 | 1996-09-19 | Donald Dipl Ing Schulz | Codierverfahren |
JPH08328599A (ja) | 1995-06-01 | 1996-12-13 | Mitsubishi Electric Corp | Mpegオーディオ復号器 |
DE69620967T2 (de) * | 1995-09-19 | 2002-11-07 | At & T Corp., New York | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
US6138051A (en) * | 1996-01-23 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for evaluating an audio decoder |
JP3189660B2 (ja) * | 1996-01-30 | 2001-07-16 | ソニー株式会社 | 信号符号化方法 |
JP3519859B2 (ja) * | 1996-03-26 | 2004-04-19 | 三菱電機株式会社 | 符号器及び復号器 |
DE19628293C1 (de) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion |
US6092041A (en) * | 1996-08-22 | 2000-07-18 | Motorola, Inc. | System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder |
JPH1091199A (ja) * | 1996-09-18 | 1998-04-10 | Mitsubishi Electric Corp | 記録再生装置 |
US5924064A (en) | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
JP3213582B2 (ja) * | 1997-05-29 | 2001-10-02 | シャープ株式会社 | 画像符号化装置及び画像復号装置 |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
KR20000068538A (ko) * | 1997-07-11 | 2000-11-25 | 이데이 노부유끼 | 정보 복호 방법 및 장치, 정보 부호화 방법 및 장치, 및 제공매체 |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US6351730B2 (en) * | 1998-03-30 | 2002-02-26 | Lucent Technologies Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6115689A (en) * | 1998-05-27 | 2000-09-05 | Microsoft Corporation | Scalable audio coder and decoder |
JP2000148191A (ja) * | 1998-11-06 | 2000-05-26 | Matsushita Electric Ind Co Ltd | ディジタルオーディオ信号の符号化装置 |
US6300888B1 (en) * | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6363338B1 (en) * | 1999-04-12 | 2002-03-26 | Dolby Laboratories Licensing Corporation | Quantization in perceptual audio coders with compensation for synthesis filter noise spreading |
JP4843142B2 (ja) * | 1999-04-16 | 2011-12-21 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 音声符号化のための利得−適応性量子化及び不均一符号長の使用 |
FR2807897B1 (fr) * | 2000-04-18 | 2003-07-18 | France Telecom | Methode et dispositif d'enrichissement spectral |
JP2001324996A (ja) * | 2000-05-15 | 2001-11-22 | Japan Music Agency Co Ltd | Mp3音楽データ再生方法及び装置 |
JP3616307B2 (ja) * | 2000-05-22 | 2005-02-02 | 日本電信電話株式会社 | 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
JP2001343998A (ja) * | 2000-05-31 | 2001-12-14 | Yamaha Corp | ディジタルオーディオデコーダ |
JP3538122B2 (ja) | 2000-06-14 | 2004-06-14 | 株式会社ケンウッド | 周波数補間装置、周波数補間方法及び記録媒体 |
SE0004187D0 (sv) | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
GB0103245D0 (en) * | 2001-02-09 | 2001-03-28 | Radioscape Ltd | Method of inserting additional data into a compressed signal |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
-
2002
- 2002-06-17 US US10/174,493 patent/US7447631B2/en active Active
- 2002-09-06 US US10/238,047 patent/US7337118B2/en not_active Expired - Lifetime
-
2003
- 2003-04-29 TW TW092109991A patent/TWI352969B/zh not_active IP Right Cessation
- 2003-05-30 CA CA2489441A patent/CA2489441C/en not_active Expired - Lifetime
- 2003-05-30 SI SI200332091T patent/SI2209115T1/sl unknown
- 2003-05-30 MX MXPA04012539A patent/MXPA04012539A/es active IP Right Grant
- 2003-05-30 EP EP10162216A patent/EP2209115B1/en not_active Expired - Lifetime
- 2003-05-30 KR KR1020047020570A patent/KR100991448B1/ko active IP Right Grant
- 2003-05-30 PL PL372104A patent/PL208344B1/pl unknown
- 2003-05-30 AT AT03736761T patent/ATE349754T1/de active
- 2003-05-30 DE DE60310716T patent/DE60310716T8/de active Active
- 2003-05-30 JP JP2004514060A patent/JP4486496B2/ja not_active Expired - Lifetime
- 2003-05-30 WO PCT/US2003/017078 patent/WO2003107328A1/en active IP Right Grant
- 2003-05-30 EP EP06020757A patent/EP1736966B1/en not_active Expired - Lifetime
- 2003-05-30 SG SG2014005300A patent/SG2014005300A/en unknown
- 2003-05-30 SG SG10201702049SA patent/SG10201702049SA/en unknown
- 2003-05-30 CN CNB038139677A patent/CN100369109C/zh not_active Expired - Lifetime
- 2003-05-30 CA CA2735830A patent/CA2735830C/en not_active Expired - Lifetime
- 2003-05-30 CA CA2736055A patent/CA2736055C/en not_active Expired - Lifetime
- 2003-05-30 EP EP03736761A patent/EP1514261B1/en not_active Expired - Lifetime
- 2003-05-30 KR KR1020107009429A patent/KR100991450B1/ko active IP Right Grant
- 2003-05-30 DK DK03736761T patent/DK1514261T3/da active
- 2003-05-30 EP EP10162217A patent/EP2216777B1/en not_active Expired - Lifetime
- 2003-05-30 DE DE60333316T patent/DE60333316D1/de not_active Expired - Lifetime
- 2003-05-30 SG SG2009049545A patent/SG177013A1/en unknown
- 2003-05-30 ES ES03736761T patent/ES2275098T3/es not_active Expired - Lifetime
- 2003-05-30 AT AT10162217T patent/ATE536615T1/de active
- 2003-05-30 AT AT10162216T patent/ATE526661T1/de not_active IP Right Cessation
- 2003-05-30 AT AT06020757T patent/ATE473503T1/de not_active IP Right Cessation
- 2003-05-30 DK DK06020757.8T patent/DK1736966T3/da active
- 2003-05-30 PT PT10162217T patent/PT2216777E/pt unknown
- 2003-05-30 CA CA2736046A patent/CA2736046A1/en not_active Abandoned
- 2003-06-09 EP EP10159809A patent/EP2207169B1/en not_active Expired - Lifetime
- 2003-06-09 SI SI200332086T patent/SI2207169T1/sl unknown
- 2003-06-09 AT AT03760242T patent/ATE470220T1/de not_active IP Right Cessation
- 2003-06-09 CA CA2736060A patent/CA2736060C/en not_active Expired - Lifetime
- 2003-06-09 AT AT10159809T patent/ATE529858T1/de not_active IP Right Cessation
- 2003-06-09 DK DK10159809.2T patent/DK2207169T3/da active
- 2003-06-09 AT AT10159810T patent/ATE529859T1/de not_active IP Right Cessation
- 2003-06-09 CA CA2736065A patent/CA2736065C/en not_active Expired - Lifetime
- 2003-06-09 KR KR1020107013897A patent/KR100986152B1/ko active IP Right Grant
- 2003-06-09 KR KR1020107013899A patent/KR100986153B1/ko active IP Right Grant
- 2003-06-09 EP EP10159810A patent/EP2207170B1/en not_active Expired - Lifetime
- 2003-06-09 KR KR1020047020587A patent/KR100986150B1/ko active IP Right Grant
- 2003-06-09 DE DE60332833T patent/DE60332833D1/de not_active Expired - Lifetime
- 2003-06-16 MY MYPI20032238A patent/MY159022A/en unknown
- 2003-06-16 MY MYPI20032237A patent/MY136521A/en unknown
-
2004
- 2004-12-08 IL IL165650A patent/IL165650A/en active IP Right Grant
-
2005
- 2005-04-19 HK HK05103320A patent/HK1070729A1/xx not_active IP Right Cessation
- 2005-04-19 HK HK05103319.3A patent/HK1070728A1/xx not_active IP Right Cessation
-
2009
- 2009-02-04 US US12/365,783 patent/US8050933B2/en not_active Expired - Lifetime
- 2009-02-04 US US12/365,789 patent/US8032387B2/en not_active Expired - Lifetime
-
2010
- 2010-02-15 JP JP2010030139A patent/JP5063717B2/ja not_active Expired - Lifetime
- 2010-08-19 HK HK10107912.8A patent/HK1141623A1/xx not_active IP Right Cessation
- 2010-08-19 HK HK10107913.7A patent/HK1141624A1/xx not_active IP Right Cessation
-
2011
- 2011-01-13 HK HK11100292.2A patent/HK1146145A1/xx not_active IP Right Cessation
- 2011-01-13 HK HK11100293.1A patent/HK1146146A1/xx not_active IP Right Cessation
- 2011-10-31 IL IL216069A patent/IL216069A/en active IP Right Grant
- 2011-12-28 JP JP2011287052A patent/JP5253565B2/ja not_active Expired - Lifetime
- 2011-12-28 JP JP2011287051A patent/JP5253564B2/ja not_active Expired - Lifetime
-
2012
- 2012-07-03 JP JP2012149087A patent/JP5345722B2/ja not_active Expired - Lifetime
-
2013
- 2013-07-12 JP JP2013146451A patent/JP5705273B2/ja not_active Expired - Lifetime
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
PL208344B1 (pl) | Sposób kodowania sygnałów akustycznych i sposób dekodowania sygnałów akustycznych, zwłaszcza w systemach kodowania fonii w telekomunikacji | |
US5621856A (en) | Digital encoder with dynamic quantization bit allocation | |
KR100397690B1 (ko) | 데이터부호화장치및그방법 | |
JP3277692B2 (ja) | 情報符号化方法、情報復号化方法及び情報記録媒体 | |
KR100295217B1 (ko) | 신호스펙트럼-의존양자화비트할당및노이즈스펙트럼-의존양자화비트할당으로서디지탈입력신호를압축하는장치 | |
PL207861B1 (pl) | Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji | |
US5832426A (en) | High efficiency audio encoding method and apparatus | |
JP3291948B2 (ja) | 高能率符号化方法及び装置、並びに伝送媒体 | |
AU2003237295B2 (en) | Audio coding system using spectral hole filling | |
JPH08237130A (ja) | 信号符号化方法及び装置、並びに記録媒体 |