SE521129C2

SE521129C2 - Sätt och anordning för audiokodning

Info

Publication number: SE521129C2
Application number: SE9800776A
Authority: SE
Inventors: Lin Yin
Original assignee: Nokia Mobile Phones Ltd
Priority date: 1997-03-14
Filing date: 1998-03-10
Publication date: 2003-09-30
Also published as: FI971108A; WO1998042083A1; GB9805294D0; SE9800776D0; JP3391686B2; KR100469002B1; CN1195930A; SE9800776L; AU6216498A; FR2761801A1; DE19811039B4; DE19811039A1; FI971108A0; JP2003140697A; GB2323759B; JPH10282999A; AU733156B2; EP0966793B1; CN1135721C; US6721700B1

Description

- . . » « a 521 129 2 tillgång till stora mängder minne för lagring av de beräknade koefficienterna och mellankoefficienter. Det är välkänt att då bakåtriktade adaptiva prediktorer av denna typ används i frek- vensdomänen är det svårt att ytterligare minska beräknings- belastningarna och minneskraven. Anledningen till detta är att antalet prediktorer är så stort i frekvensdomänen att till och med en mycket enkel adaptiv algoritm ändå ger stor beräknings- komplexitet och minneskrav. Även om det är känt att undvika detta problem genom att utnyttja framåtriktade adaptiva predik- torer som uppdateras i kodaren och överförs till avkodaren, resulterar ändå användningen av framåtriktade adaptiva predik- torer i frekvensdomänen oundvikligen i en stor mängd "sido"- information eftersom antalet prediktorer är så stort.

Ett ändamål med föreliggande uppfinning är att undvika eller åtminstone minska nackdelarna hos kända predikteringssätt.

Detta och andra ändamål uppnås genom kodning av en audiosignal med användande av felsignaler för att avlägsna redundans i vart och ett av ett flertal frekvensdelband hos audiosignalen och dessutom generera långsiktiga predikteringskoefficienter i tidsdomänen som möjliggör prediktering av en aktuell ram hos audiosignalen utifrån en eller fler tidigare ramar.

Enligt en första aspekt av föreliggande uppfinning åstadkommes ett sätt att koda en audiosignal, vilket sätt innefattar följande steg: att man mottar en audiosignal x som skall kodas; att man genererar en kvantiserad audiosignal 2 från den mottagna audiosignalen x; att man genererar en uppsättning långsiktiga predikte- ringskoefficienter A som kan användas för att prediktera en aktuell tidsram hos den mottagna audiosignalen direkt från åtminstone en föregående tidsram hos den kvantiserade audio- signalen X; man använder predikteringskoeff*cienterna A för att generera en predikterad audiosignal 2; att man jämför den mottagna audiosignalen x med den predikterade audiosignalen 2 och genererar en felsignal E(k) ~ , 1 . = . . « - ; I v 521 129 3 för vart och ett av ett flertal frekvensdelband; att man kvantiserar felsignalerna E(k) för att generera en uppsättning kvantiserade felsignaler É(k); och att man kombinerar de kvantiserade felsignalerna É(k) och predikteringskoefficienterna A för att generera en kodad audiosignal.

Föreliggande uppfinning ger komprimering av en audiosignal med användande av en framåtriktad adaptiv prediktor i tidsdomänen.

För varje tidsram hos en mottagen signal är det bara nödvändigt att generera och sända en enda uppsättning framåtriktade adap- tiva predikteringskoefficienter för överföring till avkodaren.

Detta skiljer sig från kända framåtriktade adaptiva predikte- ringstekniker som kräver generering av en uppsättning predikte- ringskoefficienter för varje frekvensdelband hos varje tidsram.

Jämfört med de predikteringsförbättringar som erhålles med föreliggande uppfinning är sidoinformationen hos den långsikti- ga prediktorn försumbar.

Vissa utföringsformer av föreliggande uppfinning möjliggör en minskning av beräkningskomplexiteten och minneskraven. Jämfört med användningen av bakåtriktad adaptiv prediktering föreligger särskilt inget krav att på nytt beräkna predikteringskoeffi- cienterna i avkodaren. Vissa utföringsformer av uppfinningen kan också reagera snabbare på signaländringar än konventio- nella, bakåtriktade adaptiva prediktorer.

Vid en utföringsform av uppfinningen transformeras den mottagna audiosignalen x i ramar xm från tidsdomänen till frekvensdomä- nen för att ge en uppsättning frekvensdelbandsignaler X(k). Den predikterade audiosignalen 2 transformeras på liknande sätt från tidsdomänen till frekvensdomänen för att generera en upp- sättning predikterade frekvensdelbandsignaler X(k) och jäm- förelsen mellan den mottagna audiosignalen x och den predikte- rade audiosignalen 2 utförs i frekvensdomänen, varvid respek- tive delbandsignaler jämförs med varandra för att generera frekvensdelbandfelsignaler E(k). Den kvantiserade audiosignalen 2 genereras genom summering av den predikterade signalen och . , . . x n 521 129 4 den kvantiserade felsignalen, antingen i tidsdomänen eller i frekvensdomänen.

Vid en alternativ utföringsform av uppfinningen utförs jäm- förelsen mellan den mottagna audiosignalen x och den predikte- rade audiosignalen 2 i tidsdomänen för att generera en fel- signal e som också ligger i tidsdomänen. Denna felsignal e omvandlas därefter från tid- till frekvensdomänen för att generera nämnda flertal frekvensdelbandfelsignaler E(k).

Företrädesvis utförs kvantiseringen av felsignalerna enligt en psyko-akustisk modell.

Enligt en andra aspekt av föreliggande uppfinning åstadkommes ett sätt att avkoda en kodad audiosignal, vilket sätt inne- fattar följande steg: att man mottar en kodad audiosignal innefattande en kvantiserad felsignal É(k) för vart och ett av ett flertal frekvensdelband hos audiosignalen och, för varje tidsram av audiosignalen, en uppsättning predikteringskoefficienter A som kan användas för att prediktera en aktuell tidram xp hos den mottagna audiosignalen direkt från åtminstone en föregående tidram hos en rekonstruerad, kvantiserad audiosignal X; att man genererar nämnda rekonstruerade, kvantiserade audiosignal 2 utifrån de kvantiserade felsignalerna É(k); att man använder predikteringskoefficienterna A och den kvantiserade audiosignalen 2 för att generera en predikterad audiosignal 2; att man transformerar den predikterade audiosignalen 2 från tiddomänen till frekvensdomänen för att generera en upp- sättning predikterade frekvensdelbandsignaler X(k) för kombi- nering med de kvantiserade felsignalerna É(k) för att generera en uppsättning rekonstruerade frekvensdelbandsignaler X(k); och att man utför en frekvens- till tiddomäntransform på de rekonstruerade frekvensdelbandsignalerna X(k) för att generera den rekonstruerade, kvantiserade audiosignalen X. . . . = 4 . : . - , . 1 521 129 Utföringsformer av ovannämnda andra aspekt av uppfinningen kan särskilt tillämpas då endast en delmängd av samtliga möjliga kvantiserade felsignaler É(k) mottages, varvid visst delband- data överförs direkt genom överföringen av audiodelbandsignaler X(k). Signalerna X(k) och X(k) kombineras på lämpligt sätt innan frekvens- till tidtransformen utförs.

Enligt en tredje aspekt av föreliggande uppfinning åstadkommes en anordning för kodning av en audiosignal, vilken anordning innefattar: en ingång för mottagning av en audiosignal x som skall kodas; ett behandlingsorgan kopplat till nämnda ingång för generering utifrån den mottagna audiosignalen x av en kvanti- serad audiosignal X; ett predikteringsorgan kopplat till nämnda behandlings- organ för generering av en uppsättning långsiktiga predikte- ringskoefficienter A för prediktering av en aktuell tidram xm hos den mottagna audiosignalen x direkt från åtminstone en tidigare tidram hos den kvantiserade audiosignalen X; ett genereringsorgan för generering av en predikterad audiosignal 2 med användande av predikteringskoefficienterna A och för jämförande av den mottagna audiosignalen x med den predikterade audiosignalen 2 för att generera en felsignal E(k) för var och en av ett flertal frekvensdelband; ett kvantiseringsorgan för kvantisering av felsigna- lerna E(k) för att generera en uppsättning kvantiserade fel- signaler É(k); och ett kombineringsorgan för kombinering av de kvantise- rade felsignalerna É(k) med predikteringskoefficienterna A för att generera en kodad audiosignal.

Vid en utföringsform innefattar nämnda genereringsorgan ett första transformorgan för transformering av den mottagna d- till frekvensdomäncn och ett andra transformorgan för transformering av den predikterade audio- signalen 2 från tid- till frekvensdomänen och är jämförelse- ., Ur. 521 129 6 organ inrättade att jämföra de resulterande frekvensdomän- signalerna i frekvensdomänen.

Vid en alternativ utföringsform av uppfinningen är genererings- organet inrättat att jämföra den mottagna audiosignalen x och den predikterade audiosignalen 2 i tiddomänen.

Enligt en fjärde aspekt av föreliggande uppfinning åstadkommes en anordning för avkodning av en kodad audiosignal x, där den kodade audiosignalen innefattar en kvantiserad felsignal É(k) för var och en av ett flertal frekvensdelband hos audio- signalen och en uppsättning predikteringskoefficienter A för varje tidram hos audiosignalen och predikteringskoefficienterna A kan användas för att prediktera en aktuell tidram xp hos den mottagna audiosignalen direkt från åtminstone en tidigare tid- ram hos en rekonstruerad, kvantiserad audiosignal 2, vilken anordning innefattar: en ingång för mottagning av den kodade audiosignalen; ett genereringsorgan för generering av nämnda rekon- struerade, kvantiserade audiosignal 2 utifrån de kvantiserade felsignalerna É(k); och ett signalbehandlingsorgan för generering av en predik- terad audiosignal 2 utifrån predikteringskoefficienterna A och nämnda rekonstruerade audiosignal 2, varvid nämnda genereringsorgan innefattar ett första transformeringsorgan för transformering av den predikterade audiosignalen R från tiddomänen till frekvensdomänen för att generera en uppsättning predikterade frekvensdelbandsignaler 2(k), ett kombineringsorgan för kombinering av nämnda upp- sättning predikterade frekvensdelbandsignaler Éjk) med de kvantiserade felsignalerna É(k) för att generera en upp- sättning rekonstruerade frekvensdelbandsignaler X(k), och ett andra transformeringsorgan för utförande av en frekvens- till tiddomäntransform på de rekonstruerade frekvensdelbandsigna- lerna X(k) för generering av den rekonstruerade, kvantiserade audiosignalen 2. 521 129 7 För en bättre förståelse av föreliggande uppfinning och för att visa hur denna kan genomföras kommer hänvisning nu att göras, såsom exempel, till bifogade ritningar, på vilka: Fig. l översiktligt visar en kodare för kodning av en mottagen audiosignal; Fig. 2 översiktligt visar en avkodare för avkodning av en audiosignal som kodats med kodaren i fig. l; Fig. 3 visar kodaren i fig. l mer i detalj inkluderande ett prediktorverktyg hos kodaren; Fig. 4 visar avkodaren i fig. 2 mer i detalj inkluderande ett prediktorverktyg hos avkodaren; och Fig. 5 visar i detalj en modifiering av kodaren i fig. l och som utnyttjar ett alternativt predikteringsverktyg.

I fig. l visas ett blockschema över en kodare som utför den kodningsfunktion som i allmänna termer definieras i MPEG-2 AAC- standarden. Insignalen till kodaren är en samplad monofassignal x, vars sampelpunkter grupperas till tidsramar eller block om 2N punkter, dvs xg=(xm(0),xm(l),...,x¿(2N-l))T (1) där m är blockindex och T anger transponering. Grupperingen av sampelpunkterna utförs av ett filterbankverktyg l som också utför en modifierad diskret cosinustransform (MDCT) på varje enskild ram av audiosignalen för att generera en uppsättning frekvensdelbandkoefficienter X;=(Xg(Û),Xg(1),---,Xg(N-1))T (2) Framåt-MDCT definieras av 521 129 s 2N-l xmm = 2 f i=O där f(i) är analys-syntes-fönstret, som är ett symmetriskt fönster så att dess adderade-överlappade effekt ger en för- stärkning av ett till signalen.

Frekvensdelbandsignalerna X(k) tillförs i sin tur ett predikte- ringsverktyg 2 (som beskrivs mer i detalj nedan), vilket för- söker eliminera den långsiktiga redundansen i varje delband- signal. Resultatet blir en uppsättning frekvensdelbandfelsigna- ler E,n(k)=(Em(0),E,,,(l),---,Em(N-l))T (4) som indikerar långsiktiga förändringar i respektive delband, och en uppsättning framåtadaptiva predikteringskoefficienter A för varje ram.

Delbandfelsignalerna E(k) tillförs en kvantiserare 3, vilken kvantiserar varje signal med ett antal bitar som bestäms av en psyko-akustisk modell. Denna modell tillämpas av en styrenhet 4. Såsom nämnts används den psyko-akustiska modellen för modellering av maskningsuppträdandet hos människans hörsel- system. De kvantiserade felsignalerna É(k) och predikterings- koefficienterna A kombineras därefter i en bitströmmultiplexor för överföring via en överföringskanal 6.

Fig. 2 visar den allmänna uppbyggnaden hos en avkodare för avkodning av en audiosignal som kodats med kodaren i fig. l. En bitströmmultiplexor 7 separerar först predikteringskoefficien- terna A från de kvantiserade felsignalerna É(k) och separerar felsignalerna i separata delbandsignaler. Predikteringskoeffi- cienterna A och de kvantiserade feldelbandsignalerna É(k) tillförs ett predikteringsverktyg 8, vilket omvänder den predikteringsprocess som utförs i kodaren, dvs predikterings- verktyget återinför den redundans som extraherats i kodaren, 1» .... -. H.- 521 129 9 för att generera återbildade, kvantiserade delbandsignaler X(k). Ett filterbankverktyg 9 återvinner därefter tiddomän- signalen X medelst en inverstransform på den mottagna versio- nen X(k), som beskrives av 17-'m(i) = Üm_1(i+N)+Ûm(i), (5) i = 0,m,Ap1 där ük(i),i = 0,~,2N-1 är inverstransformen av X N-l m ümu) = fu) J? (k) cos(.41“ñ(2i+1+1v) i = 0,---,2N-1 och som approximerar den ursprungliga audiosignalen x.

Fig. 3 illustrerar mer i detalj predikteringssättet hos kodaren i fig. 1. Med användande av de kvantiserade frekvensdelbandfel- signalerna E(k) genereras en uppsättning kvantiserade frekvens- delbandsignaler X(k) av en signalbehandlingsenhet 10. Signa- lerna X(k) tillförs i sin tur en filterbank ll som utför en modifierad diskret invers cosinustransform (IMDCT) på signaler- na för att generera en kvantiserad tiddomänsignal 2. Därefter tillförs signalen 2 ett långsiktigt prediktorverktyg 12 som också mottar audioinsignalen x. Prediktorverktyget 12 använder en långsiktig (LT) prediktor för att avlägsna redundansen i audiosignalen som finns i en aktuell ram m+l, baserat på det tidigare kvantiserade datat. Denna prediktors överförings- funktion P är: m2) = bkz-(ﬁk) <5) k =_m1 där a representerar en lång fördröjning i området 1-1024 sampel och bk är predikteringskoefficienter. För mf¶m=O är prediktorn en tapp under det att för mfqm=l är prediktorn tre tappar.

» - J 1 « - . - - . H 521 129 Parametrarna a och in bestäms genom minimering av det kvadra- tiska medelvärdesfelet efter LT-prediktering över en period av 2N sampel. För en entappsprediktor ges LT-predikteringsresidua- len r(i) av: r(i)=x(i)-b2(i-2N+1-a) (6) där x är audiosignalen i tiddomänen och 2 är den kvantiserade tiddomänsignalen. Den kvadratiska medelvärdesresidualen R ges aVI ZN-l 2N-1 R= 2(') = ( (')-b"('"2 _ H2 (7) Z; r 1 2; .X 1 X 1 N41 a Om man sätter âR/âb=0 erhålles 2N-1 x(i)2(i-2N+1-a) 19 = 1-:N-1 (8) (xu-zN-a) )2 1=0 och om man ersätter b i ekvation (7) erhålles 2N-1 zwﬂ x(i)2(i-2N+1-a) R ~ xz-(i) ~ *šfm (9) l=° 2 (>"<(n-2N+1-a))2 1=0 Minimering av R innebär maximering av den andra termen i det högra ledet av ekvation (9). Denna term beräknas för samtliga möjliga värden på a över dess specificerade område och det värde på a som maximerar denna term väljs. Energin i nämnaren i ekvation (9), identifierad som Q, kan enkelt uppdateras från fördröjningen (a-1) till a i stället för omberäkning av den med användande av: Ûf=Ûf1+ X2(-d)- 22(-d+N) (10) 521 129 ll Om en entapps LT-prediktor används används ekvation (8) för att beräkna predikteringskoefficienten bj. För en j-tapprediktor bestäms först LT-predikteringsfördröjningen a genom maximering av den andra termen i ekvation (9) och därefter löses en upp- sättning jxj-ekvationer för beräkning av j-predikterings- koefficienterna.

LT-predikteringsparametrarna A är fördröjningen a och predikte- ringskoefficienten bj. Fördröjningen kvantiseras med 9-ll bitar beroende på det använda området. Vanligtvis används 10 bitar med 1024 möjliga värden i området 1-1024. För att minska antalet bitar kan LT-predikteringsfördröjningarna deltakodas i jämna ramar med 5 bitar. Experiment visar att det är tillräck- ligt att kvantisera förstärkningen med 3-6 bitar. Till följd av den ojämna fördelningen av förstärkningen måste icke-uniform kvantisering användas.

Vid det ovan beskrivna sättet garanteras inte alltid stabili- teten hos LT-syntesfiltret 1/P(z). För en entappsprediktor är stabilitetsvillkoret Ib|sl. Därför kan stabiliseringen enkelt utföras genom att man sätter absolutbeloppet 1b1=l när absolut- beloppet \bf>l. För en 3-tappsprediktor kan en annan stabilise- ringsprocedur användas, såsom den som beskrives i R.P. Rama- chandran och P. Kabal, "Stability and performance analysis of pitch filters in speech coders", IEEE Trans. ASSP, vol. 35, nr 7, sid. 937-946, juli 1987. Dock är inte instabiliteten hos LT- syntesfiltret alltid så skadlig för den rekonstruerade signa- lens kvalitet. Det instabila filtret varar under ett par ramar (ökande energin), men till slut erhålles perioder av stabilitet så att utsignalen inte fortsätter att öka med tiden.

Efter att LT-prediktorkoefficienterna har bestämts kan den predikterade signalen för den (m+l):te ramen bestämmas: mi) = 2 bjmi-zzxni-j-a), (ll) J :_1711 i=nmHl,nmH2,m,(m+1)N u .U- -1 ...u 521 129 12 Den predikterade tidsdomänsignalen 2 tillförs därefter en filterbank 13 som utför en MDCT på signalen för att generera predikterade spektralkoefficienter ÉmU(k) för den (m+l):te ramen. De predikterade spektralkoefficienterna 2(k) subtra- heras därefter från spektralkoefficienterna X(k) vid en subtraherare 14.

För att garantera att predikteringen endast används om den resulterar i en kodningsförbättring krävs en lämplig predik- torstyrning och en liten mängd prediktorstyrningsinformation måste sändas till avkodaren. Denna funktion utförs i subtrahe- raren 14. Prediktorstyrsättet är samma som för det bakåtriktade adaptiva prediktorstyrsättet som har använts vid MPEG-2 Advanced Audio Coding (AAC). Prediktorstyrningsinformationen för varje ram, som sänds som sidoinformation, bestäms i två steg. Först bestäms för varje skalningsfaktorband huruvida prediktering leder till en kodningsförbättring eller ej och om svaret är ja ställs prediktor_använd-biten för detta skal- ningsfaktorband till ett. Efter att detta har utförts för samt- liga skalningsfaktorband bestäms huruvida den totala kodnings- förbättringen genom prediktering i denna ram kompenserar åtmin- stone den ytterligare bit som krävs för prediktorsidoinforma- tionen. Om ja ställs prediktor_data_finns-biten till l och den fullständiga sidoinformationen, inklusive den som erfordras för prediktoråterställning, sänds och predikteringsfelvärdet till- förs kvantiseraren. I annat fall ställs prediktor_data_finns- biten till 0 och återställes samtliga prediktor_använd-bitar till noll och sänds inte. I detta fall tillförs spektralkompo- nentvärdet till kvantiseraren 3. Såsom beskrivits ovan fungerar prediktorstyrningen först på alla prediktorer i ett skalnings- faktorband och det följs därefter av ett andra steg över samt- liga skalningsfaktorband.

Det inses att syftet med LT-prediktering är att uppnå den största totala predikteringsförbättringen. Låt Glbeteckna predikteringsförstärkningen i det lzte frekvensdelbandet. Den totala predikteringsförbättringen i en given ram kan beräknas på följande sätt: . . . . » v _ « . , x s 521 129 13 *M G= X Gl (12) 1=1&G1>o) Om förstärkningen kompenserar den ytterligare biten som krävs för prediktorsidoinformationen, dvs G>T(dB), sänds den full- ständiga sidoinformationen och de prediktorer som ger positiva förbättringar slås till. I annat fall används inte predikto- Iêrna.

LP-parametrarna som erhålles genom ovan angivna sätt relateras inte direkt till maximering av förbättringen. Genom att beräkna förbättringen för varje block och för varje fördröjning inom det valda området (i detta exempel l-1024) och genom att välja den fördröjning som ger den största totala predikteringsför- bättringen, optimeras dock predikteringsprocessen. Den valda fördröjningen a och motsvarande koefficienter b sänds som sido- information med de kvantiserade feldelbandsignalerna. Även om beräkningskomplexiteten ökas vid kodaren uppkommer ingen ökning i komplexiteten vid avkodaren.

Fig. 4 visar mer i detalj avkodaren i fig. 2. Den kodade audio- signalen mottas från överföringskanalen 6 av bitströmsdemulti- plexorn 7, såsom beskrivits ovan. Bitströmsdemultiplexorn 7 separerar predikteringskoefficienterna A och de kvantiserade felsignalerna É(k) och tillför dessa till predikteringsverkty- get 8. Detta verktyg innefattar en kombinerare 24 som kombine- rar de kvantiserade felsignalerna É(k) och en predikterad audiosignal i frekvensdomänen X(k) för generering av en rekon- struerad audiosignal X(k) även i frekvensdomänen. Filterbanken 9 omvandlar den rekonstruerade signalen X(k) från frekvens- domänen till tidsdomänen för att generera en rekonstruerad tidsdomänaudiosignal 2 ill e Denna signal återkopplas i sin tur t långsiktigt predikteringsverktyg som även mottar Ü Ü 4..__.._'... ..._1..._._.C.C.' ___' _'I.4_ LCLLL bh LLLLL ....1_-.-.. -n n-4_ 1.°....,...__: 1-.1_.'...~ .,..,_,_,.1 ...-: ._ ut-:ina n. UCL, langalntlga piculntcilïïgö- (D .-._41 1.

LCLLLL Ti G verktyget 26 genererar en predikterad aktuell tidsram från föregående rekonstruerade tidramar med användande av predikte- ringskoefficienterna för den aktuella ramen. En filterbank 25 transformerar den predikterade signalen 2. 521 129 14 Det inses att prediktorstyrningsinformationen som sänds från kodaren kan användas vid avkodaren för styrning av avkodnings- operationen. Särskilt kan prediktor_använd-bitarna användas i kombineraren 24 för att bestämma huruvida prediktering har använts eller ej i varje givet frekvensband.

I fig. 5 visas en alternativ implementering av audiosignalkoda- ren i fig. 1, vid vilken en audiosignal x som skall kodas jäm- förs med den predikterade signalen 2 i tiddomänen av en kompa- rator 15 för att generera en felsignal e, även detta i tid- domänen. Därefter transformerar ett filterbankverktyg 16 fel- signalen från tiddomänen till frekvensdomänen för att generera en uppsättning frekvensdelbandfelsignaler E(k). Därefter kvan- tiseras dessa signaler av en kvantiserare 17 för att generera en uppsättning kvantiserade felsignaler É(k).

Därefter används en andra filterbank 18 för att omvandla de kvantiserade felsignalerna É(k) tillbaka till tiddomänen, vilket resulterar i en signal ë. Denna kvantiserade felsignal i tiddomänen ë kombineras därefter vid en signalbehandlings- enhet 19 med den predikterade audiosignalen i tiddomänen 2 för att generera en kvantiserad audiosignal X. Ett predikte- ringsverktyg 20 utför samma funktion som verktyget 12 hos kodaren i fig. 3, genererande den predikterade audiosignalen 2 och predikteringskoefficieterna A. Predikteringskoefficienterna och de kvantiserade felsignalerna kombineras vid en bitström- multiplexor 21 för överföring över överföringskanalen 22. Såsom beskrivits ovan kvantiseras felsignalerna i enlighet med en psyko-akustisk modell medelst en styrenhet 23.

De ovan beskrivna audiokodningsalgoritmerna möjliggör komprime- ring av audiosignaler vid låga bithastigheter. Denna teknik baseras på långsiktig prediktering (LT-prediktering). Jämfört med de kända bakåtriktade adaptiva predikteringsteknikerna ger de här beskrivna teknikerna högre predikteringsförbättringar för musiksignaler med ett instrument och talsignaler samtidigt som de endast kräver liten beräkningskomplexitet.

Claims

f n ~ u | v v u » f .n 521 129 15 Patentkrav

1. Sätt att koda en audiosignal, vilket sätt innefattar följande steg: att man mottar en audiosignal x som skall kodas; att man genererar en kvantiserad audiosignal X från den mottagna audiosignalen x; att man genererar en uppsättning långsiktiga predikte- ringskoefficienter A som kan användas för att prediktera en aktuell tidsram hos den mottagna audiosignalen direkt från åtminstone en föregående tidsram hos den kvantiserade audio- signalen 2; att man använder predikteringskoefficienterna A för att generera en predikterad audiosignal 2; att man jämför den mottagna audiosignalen x med den predikterade audiosignalen 2 och genererar en felsignal E(k) för vart och ett av ett flertal frekvensdelband; att man kvantiserar felsignalerna E(k) för att generera en uppsättning kvantiserade felsignaler É(k); och att man kombinerar de kvantiserade felsignalerna É(k) och predikteringskoefficienterna A för att generera en kodad audiosignal.

2. Sätt enligt patentkrav l innefattande att man trans- formerar den mottagna audiosignalen x i ramar xm från tiddomä- nen till frekvensdomänen för att åstadkomma en uppsättning frekvensdelbandsignaler X(k) och transformerar den predikterade audiosignalen 2 från tiddomänen till frekvensdomänen för att generera en uppsättning predikterade frekvensdelbandsignaler É(k), varvid jämförelsen mellan den mottagna audiosignalen x och den predikterade audiosignalen 2 utförs i frekvensdomänen, och respektive delbandsignaler jämfö Ur »l + v « w qnnlv-ﬁ FÅ att mA v LLLCKJ. VOLGLLKALO. .LkJL G generera frekvensdelbandfe signaler E(k).

3. Sätt enligt patentkrav 1, innefattande att man utför jämförelsen mellan den mottagna audiosignalen x och den predik- » ~ . , . f 521 129 16 terade audiosignalen 2 i tiddomänen för att generera en fel- signal e som också ligger i tiddomänen och omvandlar felsigna- len e från tid- till frekvensdomänen för att generera nämnda flertal frekvensdelbandfelsignaler E(k).

4. Sätt att avkoda en kodad audiosignal, vilket sätt inne- fattar följande steg: att man mottar en kodad audiosignal innefattande en kvantiserad felsignal É(k) för vart och ett av ett flertal frekvensdelband hos audiosignalen och, för varje tidsram av audiosignalen, en uppsättning predikteringskoefficienter A som kan användas för att prediktera en aktuell tidram xm hos den mottagna audiosignalen direkt från åtminstone en föregående tidram hos en rekonstruerad, kvantiserad audiosignal 2; att man genererar nämnda rekonstruerade, kvantiserade audiosignal 2 utifrån de kvantiserade felsignalerna É(k); att man använder predikteringskoefficienterna A och den kvantiserade audiosignalen 2 för att generera en predikterad audiosignal 2; att man transformerar den predikterade audiosignalen 2 från tiddomänen till frekvensdomänen för att generera en upp- sättning predikterade frekvensdelbandsignaler X(k) för kombi- nering med de kvantiserade felsignalerna É(k) för att generera en uppsättning rekonstruerade frekvensdelbandsignaler X(k); och att man utför en frekvens- till tiddomäntransform på de rekonstruerade frekvensdelbandsignalerna X(k) för att generera den rekonstruerade, kvantiserade audiosignalen 2.

5. Anordning för kodning av en audiosignal, vilken anord- ning innefattar: en ingång för mottagning av en audiosignal x som skall kodas; ett behandlingsorgan (2, 3; 15-19) kopplat till nämnda ingång för generering utifrån den mottagna audiosignalen x av en kvantiserad audiosignal 2; 521 129 17 ett predikteringsorgan (l2; 19) kopplat till nämnda behandlingsorgan (3) för generering av en uppsättning lång- siktiga predikteringskoefficienter A för prediktering av en aktuell tidram xm hos den mottagna audiosignalen x direkt från åtminstone en tidigare tidram hos den kvantiserade audiosigna- len 2; ett genereringsorgan (10-14; 20, 15) för generering av en predikterad audiosignal 2 med användande av predikterings- koefficienterna A och för jämförande av den mottagna audio- signalen x med den predikterade audiosignalen 2 för att gene- rera en felsignal E(k) för var och en av ett flertal frekvens- delband; ett kvantiseringsorgan (3; 17) för kvantisering av fel- signalerna E(k) för att generera en uppsättning kvantiserade felsignaler É(k); och ett kombineringsorgan (5; 21) för kombinering av de kvantiserade felsignalerna É(k) med predikteringskoefficien- terna A för att generera en kodad audiosignal.

6. Anordning enligt patentkrav 5, vid vilken nämnda gene- reringsorgan innefattar ett första transformorgan (11) för transformering av den mottagna audiosignalen x från tid- till frekvensdomänen och ett andra transformorgan (13) för trans- formering av den predikterade audiosignalen 2 från tid- till frekvensdomänen, och ett jämförelseorgan (14) inrättat att jämföra de resulterande frekvensdomänsignalerna i frekvens- domänen.

7. Anordning enligt patentkrav 6, vid vilken genererings- organet är inrättat att jämföra den mottagna audiosignalen x och den predikterade audiosignalen 2 i tiddomänen.

8. Anordning för avkodning av en kodad audiosignal x, där den kodade audiosignalen innefattar en kvantiserad felsignal É(k) för var och en av ett flertal frekvensdelband hos audio- signalen och en uppsättning predikteringskoefficienter A för varje tidram hos audiosignalen och predikteringskoefficienterna A kan användas för att prediktera en aktuell tidram xn hos den , , . . _, 521 129 18 mottagna audiosignalen direkt från åtminstone en tidigare tid- ram hos en rekonstruerad, kvantiserad audiosignal 2, vilken anordning innefattar: en ingång för mottagning av den kodade audiosignalen; ett genereringsorgan (24, 25, 9) för generering av nämnda rekonstruerade, kvantiserade audiosignal 2 utifrån de kvantiserade felsignalerna É(k); och ett signalbehandlingsorgan (26) för generering av en predikterad audiosignal 2 utifrån predikteringskoefficienterna A och nämnda rekonstruerade audiosignal X, varvid nämnda genereringsorgan innefattar ett första transformeringsorgan (25) för transformering av den predikte- rade audiosignalen 2 från tiddomänen till frekvensdomänen för att generera en uppsättning predikterade frekvensdelband- signaler É(k), ett kombineringsorgan (24) för kombinering av nämnda uppsättning predikterade frekvensdelbandsignaler É(k) med de kvantiserade felsignalerna É(k) för att generera en uppsättning rekonstruerade frekvensdelbandsignaler X(k), och ett andra transformeringsorgan (9) för utförande av en frekvens- till tiddomäntransform på de rekonstruerade frek- vensdelbandsignalerna X(k) för generering av den rekonstrue- rade, kvantiserade audiosignalen 2.