NO338917B1

NO338917B1 - Apparat og fremgangsmåte for å komme frem til et estimat

Info

Publication number: NO338917B1
Application number: NO20064432A
Authority: NO
Inventors: Stefan Geyersberger; Johannes Hilpert; Michael Schug; Max Neuendorf
Original assignee: Fraunhofer Ges Forschung
Priority date: 2004-03-01
Filing date: 2006-09-29
Publication date: 2016-10-31
Also published as: JP2007525715A; BRPI0507815A; EP2034473A2; CA2559354C; RU2337414C2; WO2005083680A1; DE102004009949A1; IL176978A0; ES2847237T3; PT2034473T; RU2006134638A; HK1093813A1; NO20064432L; KR100852482B1; CN1938758A; EP2034473A3; KR20060121978A; EP3544003A1; EP3544003B1; CN1938758B

Description

Fagfelt

Oppfinnelsen angår kodere for koding av et signal som omfatter audio- og/eller video-informasjon, og spesielt estimeringen av behovet for informasjonsenheter for koding av dette signal.

Bakgrunn

Tidligere kjent teknikk fremlegges i EP 0 446 037 som presenterer en hybrid kodingsteknikk for høy-kvalitets koding av audiosignaler, ved å bruke en underbånd-filterteknikk ytterlige forbedret til å oppnå et stort antall underbånd. Støymaskerings-terskler for underbånd blir deretter bestemt ved å bruke et nytt tonalitetsmål anvendbar på individuelle frekvensbånd eller enkelte frekvenser. Basert på de på en slik måte bestemte tersklene kodes innkommende signaler for å oppnå høy kvalitet med reduserte bitrater.

US 2002 103637 fremlegger digitale lydkodingssystemer som anvender høy-frekvens gjenoppbyggingsfremgangsmåter. Dokumentet lærer hvordan totalytelsen av slike systemer forbedres ved hjelp av tilpasning over tid av crossover-frekvensen mellom lavbåndet kodet av en kjernekodek og høybåndet kodet med et HFR-system. Ulike måter å etablere momentane optimale valg av crossover-frekvens introduseres.

I det følgende vil en kode i henhold til kjent teknikk bli presentert. Et audiosignal som skal kodes avgis til inngang 1000. Dette audiosignal blir først matet til et skalermgstrinn 1002, der det utføres en såkalt AAC-forsterkningsregulering for å etablere nivået til audiosignalet. Sideinformasjon av skaleringen av gis til en bitstrøm-formaterer 1004, representert ved pilen mellom blokk 1002 og blokk 1004. Det skalerte audiosignal avgis så til en MDCT-filterbank 1006. Ved hjelp av AAC-koderen vil filterbanken infiltrere en modifisert, diskret cosinustransformasjon med 50 % over-lappende vinduer, der vinduslengden bestemmes i blokken 1008.

Blokken 1008 er generelt tilveiebrakt for å kunne vindusstille transiente signaler med relativt korte vinduer, og for å kunne vindusdele signaler som har en tendens til å være stasjonære med forholdsvis lange vinduer. Dermed oppnås et høyere nivå for tidsoppløsningen (på bekostning av frekvensoppløsningen) av den transiente signalet, på grunn av de relativt korte vinduene, mens det for signaler som har en tendens til å være stasjonære oppnås en høyere frekvensoppløsning (på bekostning av tidsminneoppløsningen), på grunn av lengre vinduer, hvilket ofte foretrekkes siden det gir en høyere kodmgsforsterkning. Ved utgangen av filterbanken 1006 avgis suksessivt blokker av spektralverdier som kan være MDCT-koeffisienter, Fourier-koeffisienter eller underbåndsignaler, avhengig av implementeringen av filterbanken, der hvert underbåndsignal har en spesifikt begrenset båndbredde spesifisert av den respektive underbåndskanal i kildebanken 1006, og der hvert underbåndsignal omfatter et spesifikt antall av underbåndsampler.

I det følgende vil det gis en presentasjon av et eksempel av et tilfelle der filterbanken avgir tidsmessig, suksessive blokker av MDCT-spektralkoeffisienter, som generelt representerer suksessive, korttidsspektra for audiosignalet som skal kodes, til inngangen 1000. En blokk av MDCT-spektralverdier mates så til en TNS-prosesseringsblokk 1010 (TNS = temporary noise shaping), der det vil bli utført en midlertidig støyforming. TNS-teknikken benyttes for å forme den midlertidige formen til kvantiseringsstøyen i hvert vindu av formasjonen. Dette oppnås ved å anvende en filtreringsprosess på deler av spektraldataene for hver kanal. Kodingen utføres så på vindusbasis. Mer spesifikt utføres følgende trinn ved anvendelsen av TNS-verktøyet på et vindu av spektraldata, dvs. på en blokk av spektralverdier.

Først velges et frekvensområde for TNS-verktøyet. Et passende valg vil være et frekvensområde på 1,5 kHz med et filter, opp til det høyest mulige skaleringsfaktor-bånd. Det skal bemerkes at dette frekvensområdet vil avhenge av en samplingsrate, slik den er spesifisert i AAC-standarden (ISO/IEC 14496-3: 2001 (E)).

Deretter utføres en LPC-beregning (LPC = lineær prediktiv koding), mer presist ved å benytte de spektrale MDTC-koeffisienter til stede i det valgte målfrekvensområdet. For å oppnå en økt stabilitet vil koeffisienter som korresponderer til frekvenser under 2,5 kHZ bli utelatt fra den prosessen. Vanlige LPC-prosedyrer knet fra tale-prosessering kan benyttes for LPC-beregningen, for eksempel den kjente Levinson-Durbin algoritmen. Beregningen utføres for den maksimalt tillatte måten for støyformingsfilteret.

Ved LPC-beregningen vil den forventede prediksjonsforsterkning PG bli fremskaffet. I tillegg tilveiebringes refleksjonskoeffisientene, eller Parcor-koeffisientene.

Dersom prediksjonsforsterkningen ikke overskrider en bestemt terskel vil det TNS-verktyet ikke bli anvendt. I dette tilfellet vil styreinformasjon bli skrevet inn i bitstrømmen slik at en dekoder vil vite at ingen TNS-prosessering er blitt utført.

Dersom prediksjonsforsterkningen overskrider denne terskel, vil imidlertid TNS-prosesseringen bli anvendt.

I neste trinn kvantiseres refleksjonskoeffisientene. Ordenen til det benyttede støyformingsfilter bestemmes ved å fjerne alle refleksjonskoeffisientene med en absolutt verdi som er mindre enn en terskelverdi målt fra "halen" til rekken av refleksjonskoeffisienter. Antallet av gjenværende refleksjonskoeffisienter vil være i størrelsesorden lik støyformingsfilteret. En passende terskelverdi vil være 0,1.

De gjenværende refleksjonskoeffisienter ville typisk bli omformet til lineære prediksjonskoeffisienter, og denne teknikken er også kjent som en "opptrans-formering"-prosedyre.

De beregnede LPC-koeffisienter benyttes så som støyformingsfilterkoeffi-sienter for koderen, dvs. som prediksjonsfilterkoeffisienter. Dette FIR-filter vil bli benyttet med filtreringen i det spesifiserte målfrekvensområdet. Et autoregressivt filter benyttes ved dekodingen, mens et såkalt bevegelig midlingsfilter benyttes ved kodingen. Deretter blir sideinformasjonen for TNS-verktøyet avgitt til bitstrøm-formatereren, slik dette er angitt ved pilen mellom TNS-prosesseringsblokken 1010 og bitstrømmen formatereren 1004 på fig. 3.

Deretter passeres flere valgfrie verktøy som ikke er vist på fig. 3, slik som et langtidsprediksjonsverktøy, et intensitets/koplingsverktøy, et prediksjonsverktøy, et støyerstatningsverktøy, til endelig signalet ankommer en midlings/side-koder 1012 vil være aktiv når audiosignalet skal kodes er et multikanal signal, dvs. et stereosignal med en venstrekanal og en høyrekanal. Så langt, det vil si oppstrøms fra blokken 1012 på fig. 3, er de venstre og høyre stereokanaler blitt prosessert, dvs. skallert, transformert av filterbanken, enten de nå har gjennomgått en TNS-prosessering eller ikke, etc, atskilt fra hverandre.

I midlings/side-koderen vil det vesentlige bli verifisert om midlings/- sidekodingen gir mening, dvs. om den vil gi en kodingsforsterkning overhodet. Midlings/side-kodingen vil gi en kodingsforsterkning som den venstre og høyre kanal har en tendens til å være like, siden middelkanalen, dvs. summen av den venstre og den høyre kanal, i dette tilfellet er nesten lik den venstre kanal eller den høyre kanal, bortsett fra skalering med en faktor på 1/2, mens sidekanalen bare vil anta svært små verdier siden den er lik differansen mellom en venstre og en høyre kanal. Som en konsekvens av dette er det åpenbart at når den venstre og den høyre kanal er om lag de samme vil differansen være om lag null, eller anta bare svært små verdier som for-håpentligvis vil bli kvantisert til null i en påfølgende kvantisering 1014, og de kan således sendes på en svært effektiv måte, siden en antopi-koder 1016 befinner seg nedstrøms fra kvantisereren 1014.

Kvantisereren 1014 er forsynt med et tillatt interferens-per-skaleringsfaktor-bånd ved en psykoakustisk del 1020. Kvantisereren betjenes på en iterativ måte, dvs. at en ytre iterasjonssløyfe vil først bli påkalt, som så vil påkalle en indre iterasjonssløyfe. Generelt vil en kvantisering av en blokk av verdier først bli utført ved inngangen til kvantisereren 1014, idet det begynnes med startverdier for trinnstørrelsen til kvantisereren. Spesielt vil den indre sløyfe kvantisere MDCT-koeffisientene, deretter spesifikt antall bits blir benyttet i denne prosessen. Den ytre sløyfe vil beregne forvrengningen og den modifiserte energi for koeffisientene ved å benytte skaleringsfaktoren for så igjen å påkalle en indre sløyfe. Denne prosess gjentas inntil en spesifikk betingelse er oppfylt. For hver iterasjon i den ytre iterasjonssløyfe vil signalet bli rekonstruert for så å beregne interferensen forårsaket av kvantiseringen, og så sammenlikne den med den tillatte interferens angitt av den psykoakustiske del 1020. I tillegg vil skaleringsfaktoren for de frekvensbåndene som etter denne sammenlikning fremdeles anses å være interferert bli økt med ett eller flere trinn for hver iterasjon, mer presist for hver iterasjon i den ytre iterasjonssløyfe.

Så snart det oppstår en situasjon der interferensen forårsaket av kvantiseringen er under den tillatte interferens bestemt av den psykoakustiske del, og dersom bitkravene samtidig er oppfylt, vil det presist si at den maksimale bitrate ikke overskrides, vil iterasjonen, dvs. analyse-ved-syntese-fremgangsmåten bli avsluttet og de fremskaffede skaleringsfaktorer kodes som illustrert i blokk 1014, hvorpå de i kodet form avgis til bitstrøm-formatereren 1004 som indikert ved pilen mellom blokk 1014 og blokk 1004. De kvantiserte verdier vil så bli avgitt til en entropikoder 1016, som typisk vil utføre en entropikoding for forskjellige skaleringsfaktorbånd ved å benytte flere Huffman-kode-tabeller, for således å overføre de kvantiserte verdier til et binært format. Som kjent omfatter entropikoding i form av Huffman-koding å støtte seg til kodingstabeller som er satt opp på basis av forventet signalstatistikk, og der hyppig forekommende verdier gis et kortere kodeord enn mindre hyppig forekommende verdier. De entropikodede verdier forsynes så som hovedinformasjon til bitstrøm-formatereren 1004, som i sin tur vil avgi det kodede audiosignal på utgangssiden i overensstemmelse med en spesifikk bitstrømsyntaks.

Datareduksjon av audiosignaler omfatter nå kjente teknikker som er gjenstand for en rekke internasjonale standarder (f.eks. ISO/MPEG-1, MPEG-2, AAC, MPEG-4).

De ovenfor nevnte fremgangsmåter har det felles at inngangssignalet gis en kompakt, dataredusert representasjon ved hjelp av en såkalt koder, der det dras fordel av persepsjonsrelaterte effekter (psykoakustikk, psykooptikk). For å oppnå dette utføres vanligvis en spektralanalyse av signalet, hvorpå de korresponderende signal-komponenter kvantiseres idet det tas hensyn til en persepsjonsmodell, og kodes som en såkalt bitstrøm på en så kompakt måte som mulig.

For å kunne estimere, før den faktiske kvantisering, hvor mange bits en bestemt signaldel som skal kodes vil kreve, kan såkalt perseptuell entropi (PE) anvendes. PE vil også tilveiebringe et mål for hvor vanskelig det er for koderen å kode et bestemt signal eller deler av dette.

Avviket av PE fra det faktiske antall påkrevde bits vil være kritisk for kvaliteten av estimatet.

Den perseptuelle entropi og/eller hvert estimat for behovet for informasjonsenheter for koding av et signal kan videre benyttes for å estimere om signalet er transient eller stasjonært, siden transientene signaler vil kreve flere bits ved koding enn stasjonære signaler. Estimeringen av en transientegenskap til et signal benyttes for eksempel til å kunne ta en avgjørelse om vinduslengde, slik dette indikeres i blokk 1008 på fig. 3.

Fig. 6 viser den perseptuelle entropi beregnet i overensstemmelse med ISO/IEC IS 13818-7 (MPEG-2 avansert audio-koding (AAC)). Likningen vist på fig. 6 benyttes ved beregningen av den perseptuelle entropi, dvs. en båndvis perseptuell entropi. I denne likning representerer parameteren pe den perseptuelle entropi. Bredden (b) representerer videre antallet spektralkoeffisienter i det respektive bånd B. Videre er e (b) energien til signalet i dette bånd. Endelig er nb(b) den korresponderende maskeringsterskel, eller mer generelt den tillatte interferensen kan påføres signalet, f.eks. ved kvantisering, slik at en lytter ikke vil høre noe, eller bare en ubetydelig interferens.

Båndene kan stamme fra bånd-oppdelingen i den psykoakustiske modell (blokk 1020 på fig. 3), eller de kan være de såkalte skaleringsfaktor-bånd (scfb) benyttet ved kvantiseringen. Den psykoakustiske maskeringsterskel er den energi-verdien som kvantiseringsfeilen ikke bør overskride.

Således viser illustrasjonen ifølge fig. 6 hvor bra en perseptuell entropi bestemt på denne måte vil fungere som et estimat for antallet bits påkrevd ved koding. Den respektive perseptuelle entropi blir plottet avhengig av de benyttede bits i en AAC-koder ved forskjellige bitrater for hver individuelle blokk. Det benyttede teststykket inneholder en typisk blanding av musikk, tale og individuelle instrumenter.

Ideelt sett ville punktene samle seg langs en rett linje som går gjennom origo. Fordelingen av punktene og avvikene fra den ideelle linje gjør det klart at estimatet er unøyaktig.

Dette avvik vil således være ulempen ved konseptet ifølge fig. 6, noe som vil gjøre seg til ved at det for eksempel oppstår en verdi som er for høy for den perseptuelle entropi, hvilket i sin tur betyr at det vil bli signalisert til kvantisereren at det trengs flere bits enn det som faktisk er nødvendig. Dette vil føre til at kvantisereren vil kvantisere for fint, dvs. at den ikke fullt ut vil dra nytte av målet for den tillatte interferens, noe som vil resultere i en redusert kodingsforsterkning. Dersom verdien for den perseptuelle entropi settes for lav, vil det derimot bli signalisert til kvantisereren at det kreves færre bits enn det som faktisk er nødvendig for koding av signalet. Dette vil i sin tur resultere i at kvantisereren kvantiserer for grovt, hvilket umiddelbart ville føre til, dersom det ikke foretas mottiltak, en hørbar interferens i signalet. Et mottiltak vil være kvantifisereren krever en eller flere iterasjonssløyfer, noe som ville øke beregningstiden i koderen.

For å forbedre beregningen av den perseptuelle entropi kunne en konstant, for eksempel 1,5, bli introdusert i algoritme-uttrykket, slik som vist på fig. 7. Et bedre resultat vil da allerede kunne oppnås, dvs. at det vil oppstå et mindre avvik oppover eller nedover, og det vil ses at når en konstant introdusert i logaritme-uttrykket tas i betraktning, vil tilfellet der den perseptuelle entropi signaliserer et for optimistisk behov for bits, faktisk være redusert. Det kan imidlertid ses klart på fig. 7 at et for høyt antall bits i vesentlig grad vil bli signalisert, hvilket vil føre til at kvantisereren alltid vil kvantisere for fint, det vil si at bitbehovet antas å være større enn det det faktisk er, noe som i sin tur resulterer i en redusert kodingsforsterkning. Konstanten i logaritme-uttrykket vil være et grovt estimat for bits som er påkrevd for sideinformasjon.

Innføringen av en konstant i logaritme-uttrykket vil således faktisk tilveiebringe en forbedring for den båndvise perseptuelle entropi, slik denne er illustrert på fig. 6, siden dette vil medføre en større sannsynlighet for at båndene med en svært liten avstand mellom energi og maskeringsterskel tas med i beregningen, siden en viss mengde bits også vil være påkrevd for transmisjon av spektralkoeffisienter som er kvantisert til null.

En annen, svært beregningstidsintensiv beregning av perseptuell entropi er illustrert på fig. 8. Fig. 8 viser tilfeller der den perseptuelle entropi er beregnet på en linjevis måte. Ulempen ligger imidlertid i den høyere beregningskompleksiteten for den linjevise beregning. Her anvendes spektralkoeffisienter X(k) i stedet for energien. Der kOffset (b) angir den første indeks i bånd b. Når fig. 8 sammenliknes med fig. 7 vil det klart ses en reduksjon av utslagene oppover i området fra 2 000 til 3 000 bits. Estimatet for pe ville derfor være mer nøyaktig, dvs. ikke for pessimistisk, men snarere nærme seg det optimale, slik at kodingsforsterkningen økes sammenliknet med beregningsfremgangsmåten vist på fig. 6 og 7, og/eller slik at antallet iterasjoner i kvantisereren kan reduseres.

Beregningstiden påkrevd for likningen vist på fig. 8 vil imidlertid være en ulempe ved linjevise beregning av den perseptuelle entropi.

En slik ulempe med lang beregningstid vil ikke nødvendigvis spille særlig rolle ettersom koderen kjøres i en kraftig PC eller i en kraftig arbeidsstasjon. Men bildet vil være et helt annet dersom koderen er installert i en bærbar innretning, slik som en mobil UMTS-telefon, som på den ene side må være liten og rimelig, og som på den annen side må ha et lavt strømbehov, og som i tillegg må arbeide raskt for at det skal kunne bli mulig å kode et audiosignal eller et videosignal sendt via UMTS-forbindelsen.

Det er et formål med denne oppfinnelse å tilveiebringe et effektivt og ikke desto mindre nøyaktig konsept for bestemmelse av et estimat for et behov for informasjonsenheter ved koding av et signal.

Dette formål oppnås ved en anordning ifølge krav 1, en fremgangsmåte ifølge krav 12, eller et datamaskinprogram ifølge krav 13.

Foreliggende oppfinnelse er basert på de funn at en frekvensbåndvis avregning av estimatet for et behov for informasjonsenheter må begrenses av beregningstids-grunner, men at for å kunne komme frem til et nøyaktig estimat må distribusjonen av energien i frekvensbåndet som skal beregnes på en båndvis måte tas i betraktning.

Etter kvantisereren trekkes dermed entropikoderen på følgende måte implisitt inn i bestemmelsen av estimatet for behovet for informasjonsenheter. Entropikodingen medfører at et mindre omfang av bits er påkrevd for transmisjon av små spektralverdier enn for transmisjonen til større spektralverdier. Entropikoderen er spesielt effektiv når spektralverdier kvantisert til null kan sendes. Siden dette typisk vil være tilfelle, vil kodeordet for sending av en spektrallinje som er kvantisert til null være kortest, mens kodeordet for sending av en større kvantisert spektrallinje vil bli tilsvarende lenger. For å oppnå et spesielt effektivt konsept for sending av en frekvens av spektralverdier kvantisert til null, kan til og med kjørelengde-koding benyttes, noe som medfører at for rekken av nuller i en spektralverdi kvantisert til null ikke engang i gjennomsnitt en enkelt bit være påkrevd.

Det er funnet at den båndvise perseptuelle entropiberegningen for bestemmelse av estimatet for informasjonsenheten benyttet ved den kjente teknikk, vil fullstendig ignorere operasjonsmodusen til entropikoderen nedstrøms dersom distribusjonen av energien i frekvensbåndet avviker fra en fullstendig ensartet distribusjon.

Ifølge oppfinnelsen for å kunne redusere unøyaktighetene i den båndvise beregningen, tas det således hensyn til hvordan energien er distribuert i båndet.

Avhengig av implementeringen kan et mål for distribusjonen av energien i frekvensbåndet bestemmes på basis av de faktiske amplituder eller ved en estimering av frekvenslinjene som ikke er kvantifisert til null av kvantisereren. Dette mål, som også refereres til som "ni", der ni står for "antall aktive linjer", foretrekkes av regne-tids-effektivitetsgrunner. Antallet spektrallinjer kvantisert til null, eller en finere oppdeling, kan imidlertid også tas med i beregningen, der denne estimeringen jo mer nøyaktig dess mer informasjon om entropikoden nedstrøms som tas med i beregningen. Dersom entropikoderen er konstruert på basis av Huffman-kode-tabeller kan egen-skapene til disse kodetabellene integreres på en spesielt god måte, siden kodetabellene på grunn av signalstatistikk ikke beregnes på stedet, men er fastlagt uavhengig av det aktuelle signal.

Ved en spesiell effektiv beregning, avhengig av regnetidsbegrensninger, bestemmes imidlertid målet for distribusjonen av energien i frekvensbåndet av linjene som overlever kvantiseringen, dvs. antallet aktive linjer.

Foreliggende oppfinnelse er fordelaktig ved at det foretas et estimat for behovet for informasjonsomfang som er både mer nøyaktig og mer effektivt enn ved den kjente teknikk.

Foreliggende oppfinnelse kan videre tilpasses forskjellige applikasjoner, siden flere egenskaper for entropikoderen alltid kan tas med i estimatet for bit-behovet, avhengig av den ønskede nøyaktighet for estimatet, men også på bekostning av en økt regnetid.

For øvrig henvises til kravene som fremlegger oppfinnelsens aspekter som anordning i selvstendig krav 1 samt underkrav 2 til 9, fremgangsmåte i krav 10 og data-maskinprogramvare i krav 11 som utfører nevnte fremgangsmåte.

Kort beskrivelse av figurene

Foretrukket utførelsesformer av foreliggende oppfinnelse vil i det følgende bli forklart mer detaljert med referanse til de vedlagte tegninger, der: fig. 1 er et sperrekretsdiagram som viser den oppfinneriske anordning for

bestemmelse av et estimat,

fig. 2a viser en foretrukket utførelsesform av midlene for beregning av et mål for

distribusjon av energien i frekvensbåndet,

fig. 2b viser en foretrukket utførelsesform av midlene for beregning av estimatet for

behovet for bits,

fig. 3 er et sperrekretsdiagram som viser en kjent audiokoder,

fig. 4 er en prinsippillustrasjon av utlegningen av hvilken betydning energidistribu-sjonen i et bånd har for bestemmelsen av estimatet,

fig. 5 er et diagram som viser estimatberegningen i overensstemmelse med

foreliggende oppfinnelse,

fig. 6 er et diagram som viser estimatberegningen i overensstemmelse med ISO/IEC

IS 13818-7 (AAC),

fig. 7 er et diagram som viser estimatberegningen ved innføring av en konstant, fig. 8 er et diagram som viser en linjevis estimatberegning ved innføring av en

konstant.

Detaljert beskrivelse av utførelsesformer

Idet det vises til fig. 1, vil nå den oppfinneriske anordning for bestemmelse av et estimat for et behov for informasjonsenheter ved koding av et signal bli beskrevet. Signalet, som kan være et audio- og/eller videosignal, avgis til en inngang 100. Signalet er fortrinnsvis allerede til stede som en spektral representasjon med spektralverdier. Dette er imidlertid ikke absolutt nødvendig, siden noen beregninger med et tidssignal også kan utføres med for eksempel en korresponderende båndpassfiltrering.

Signalet forsynes så til midler 102 for å tilveiebringe et mål for en tillatt interferens i et frekvensbånd til signalet. Den tillatte interferens kan for eksempel bestemmes ved hjelp av en psykoakustisk modell, slik som forklart i forbindelse med fig. 3 (blokk 1020). Midlene 102 kan videre også betjenes for å tilveiebringe målet for energien i signalet i frekvensbåndet. Det er en forutsetning for båndvis beregning at et frekvensbånd for hvilket det er angitt en tillatt interferens eller signalenergi inneholder minst to spektrallinjer i den spektrale representasjon av signalet. I typiske, standardi-serte audiokodere vil frekvensbåndet fortrinnsvis være et skaleringsfaktorstrekkbånd, siden kvantisereren umiddelbart trenger et estimat for bit-behovet for å kunne avgjøre om den kvantisering som er foretatt møter et bit-kriterie eller ikke.

Midlene 102 er innrettet til å kunne forsyne både den tillatte interferens nb(b) og signalenergien e(b) for signalet i båndet til midler 104 for beregning av estimatet for behovet for bits.

Ifølge oppfinnelsen er midlene 104 for beregning av estimatet for behovet for bits innrettet til å kunne ta med i beregningen et mål nl(b) for en distribusjon av energien i frekvensbåndet, i tillegg til den tillatte interferens og signalenergien, der distribusjonen av energien i frekvensbåndet avviker fra en fullstendig ensartet distribusjon. Målet for distribusjonen av energien beregnes i midler 106, der disse midler 106 krever minst ett bånd, nemlig det aktuelle frekvensbånd for audio- eller videosignalet enten som et båndpassignal eller direkte som et resultat av spektrallinjer, for å kunne være i stand til å utføre for eksempel en spektralanalyse av båndet, for på denne måte å fremskaffe målet for distribusjonen av energiene i frekvensbåndet.

Audio- eller videosignalet kan selvfølgelig også forsynes til midlene 106 som et bitsignal, der midlene 106 da vil utføre en båndfiltrering så vel som en analyse av båndet. Alternativt kan audio- eller videosignalet forsynt til midlene 106 allerede være til stede i frekvensområdet, for eksempel som MDCT-koeffisienter, eller også som et båndpassignal i filterbanken omfattende et mindre antall båndpassfiltre sammenliknet med en MDCT-filterbank.

I en foretrukket utførelsesform er midlene 106 for beregning innrettet til å ta hensyn til aktuelle størrelser av spektralverdier i frekvensbåndet ved beregning av estimatet.

Midlene for beregning av målet for distribusjonen av energien kan videre være innrettet til å kunne bestemme, som et mål for distribusjonen av energien, antallet av spektralverdier med en størrelse som er større enn eller lik en forutbestemt terskelverdi, eller med en størrelse som er mindre enn eller lik denne terskelverdien. Der terskelverdien fortrinnsvis er en estimert kvantisererverdi, satt slik at verdier som er mindre enn eller lik kvantisererverdien, kvantiseres til null i en kvantiserer. I dette tilfellet vil målet for energien være lik antallet aktive linjer, det vil si antallet linjer som har overlevd eller som ikke er lik null etter kvantiseringen.

På fig. 2a vises en foretrukket utførelsesform av midlene 106 for beregning av målene for distribusjonen av energien i frekvensbåndet. Målet for distribusjonen av energien i frekvensbåndet betegnes på fig. 2a med nl(b). Formfaktoren ffac(b) vil allerede være et mål for distribusjonen av energien i frekvensbåndet. Fra blokk 106 vil det ses at målet for spektraldistribusjonen ni bestemmes fra formfaktoren ffac(b) ved vekting med den fjerde rot av signalenergien e(b) dividert på båndbredden width(b) og/eller antallet linjer i skaleringsfaktorbåndet b. I denne sammenheng skal det faktum påpekes at formfaktoren også er et eksempel på en størrelse som indikerer et mål for distribusjonen av energiene, mens nl(b) i motsetning til dette er et eksempel på en størrelse som representerer et estimat for antallet av linjer relevante for kvantiseringen.

Formfaktoren ffac(b) beregnes gjennom en fastsettelse av størrelsen av spektrallinjen og en påfølgende rotdannelse av denne spektrallinje samt en påfølgende summering av disse "røttene" for spektrallinjene i båndet.

Fig. 2b viser en foretrukket utførelsesform av midlene 104 for beregning av estimatet pe, der det på fig. 2b også skilles mellom forskjellige tilfeller, nemlig når logaritmen med grunntall 2 av raten for energien i den tillatte interferens er større enn en konstant cl eller lik denne konstant. I dette tilfelle velges det øvre alternativ i blokken 104, det vil si at målet for spektraldistribusjonen ni multipliseres med logartime-uttrykket.

Dersom det på den annen side avgjøres at logaritmen med grunntallet 2 av raten for signalenergien til den tillatte interferens er mindre enn verdien cl, vil det nedre alternativ i blokken 104 på fig. 2b bli benyttet, som i tillegg også omfatter en additiv konstant c2 så vel som en multiplikativ konstant c3 beregnet fra konstantene c2 og cl.

I det følgende vil det oppfinneriske konsept bli illustrert med referanse til fig. 4a og fig. 4b. Fig. 4a viser et bånd der fire like store spektrallinjer er til stede. Energien i dette båndet vil således være likeartet distribuert over båndet. I motsetning til dette viser fig. 4b en situasjon der energien i båndet befinner seg i en spektrallinje, mens de andre tre spektrallinjer er lik null. Båndet ifølge fig. 4b kunne for eksempel vært til stede før kvantiseringen, eller det kunne være fremskaffet etter kvantifiseringen, dersom spektrallinjene var satt til null på fig. 4b er mindre enn den første kvantisererverdi før kvantiseringen og dermed settes til null av kvantisereren, dvs. at de ikke "overlever".

Antallet aktive linjer på fig. 4b er således lik en, der parameteren ni på fig. 4b settes til kvadratroten av 2. I motsetningen til dette vil verdien ni dvs. målet spektraldistribusjonen av energien, på fig. 4a beregnes til 4. Dette betyr at spektraldistribusjonen av energien er mer ensartet dersom målet for distribusjonen av spektralenergien er stor.

Det skal bemerkes at den båndvise beregning av den perseptuelle entropi ifølge kjent teknikk ikke tar hensyn til forskjeller mellom disse to tilfellene. Mer spesifikt vil det ikke bli skilt mellom tilfellene ifølge fig. 4a og 4b dersom energinivået er det samme i begge disse båndene.

Det er opplagt at tilfellet ifølge fig. 4b kan kodes med bare en relevant linje og med færre bits, siden de tre spektrallinjene satt til null kan sendes meget effektivt. Generelt vil den enklere kvantiseringsenheten for tilfellet ifølge fig. 4b grunne seg i det faktum at etter kvantiseringen og en tapsfri koding vil de mindre verdiene, og spesielt verdien kvantisert til null, kreve færre bits ved transmisjon.

Ifølge oppfinnelsen vil det således tas med i beregningen at hvordan energien er distribuert i båndet. Som utlagt gjøres dette ved å erstatte antallet av linjer pr. bånd i den kjente likning (fig. 6) med et estimat for antallet linjer som ikke er lik null etter kvantiseringen. Denne estimeringen er vist på fig. 2a.

Det skal videre bemerkes at formfaktoren vist på fig. 2a trengs også på andre steder i koderen. For eksempel i kvantiseringsblokk 1014 for bestemmelse av trinn-størrelsen av kvantiseringen. Dersom formfaktoren allerede er beregnet annet sted vil det ikke være nødvendig igjen å utføre denne beregningen for den aktuelle bit-estimering, slik at det oppfinneriske konsept for en forbedret estimering av målet for påkrevde bits vil klare seg med et minimum av styringsberegning.

Som allerede utlagt er X(k) spektralkoeffisienten som senere skal kvantifiseres, mens variabelen kOffset(b) angir den første indeks i båndet b.

Det kan ses fra figurene 4a og 4b at spektrumet på fig. 4b gir en verdi for ni på 4, mens spektrumet ifølge fig. 4b gir en verdi på 1,41. Ved hjelp av formfaktoren kan således et mål for kvantiseringen av spektralfeltstrukturen i båndet tilveiebringes.

Den nye formel for beregning av en forbedret båndvis perseptuell entropi er således basert på multiplikasjon av målet for spektraldistribusjonen av energien med logaritme-uttrykket der signalenergien e(b) befinner seg i telleren og den tillatte interferens i nevneren, og der en konstant kan innføres i logaritme-uttrykket etter behov, slik som allerede illustrert på fig. 7. Denne konstant kan for eksempel være lik 1,5, men den kan også være lik null, slik som ved tilfellet ifølge fig. 2b, der dette da for eksempel kan avgjøres empirisk.

Det skal på dette punkt igjen refereres til fig. 5, der den perseptuelle entropi beregnet i overensstemmelse med oppfinnelsen er åpenbar, nemlig i plottet i forhold til påkrevde bits. En høyere nøyaktighet for estimeringen i forhold til de sammenliknbare eksempler ifølge figurene 6, 7 og 8 er åpenbar. Den modifiserte, båndvise beregningen ifølge oppfinnelsen vil også gjøre det minst like godt som den linjevise beregningen.

Fremgangsmåten ifølge oppfinnelsen kan implementeres i maskinvaren eller i programvaren, alt etter omstendighetene. Implementeringen kan foretas i et digitalt lagringsmedium, spesielt en diskett eller CD med elektronisk lesbare styresignaler som er i stand til å samarbeide med et programmerbart datamaskinsystem slik at fremgangsmåten kan utføres. Generelt omfatter oppfinnelsen således også et datamaskinprogram-produkt med en programkoder lagret i en maskinlesbar bærer for utførelse av den oppfinneriske fremgangsmåte, der datamaskinprogram-produktet kjøres i en datamaskin. Med andre ord kan oppfinnelsen således også realiseres som et datamaskinprogram med en programkode for utførelse av fremgangsmåten, når datamaskinprogrammet kjøres i en datamaskin.

Claims

1 Anordning for bestemmelse av et estimat (pe) for et behov for informasjonsenheter ved koding av et signal som omfatter audio- eller videoinformasjon, der signalet har flere frekvensbånd (b),karakterisert vedat den omfatter • midler (102) for å kunne tilveiebringe et mål (nb(b)) for en tillatt interferens i et frekvensbånd (b) til signalet, der frekvensbåndet (b) omfatter minst to spektralverdier i en spektralrepresentasjon av signalet, og et mål (e(b)) for en energi i signalet i frekvensbåndet, • midler (106) for beregning av et mål (nl(b)) for en distribusjon av energien (e(b)) i frekvensbåndet (b), der distribusjonen av energien i frekvensbåndet avviker fra en fullstendig uniform distribusjon, der • midlene (106) for beregning av målet (nl(b)) er distribusjonen av energien (e(b)) er innrettet til å kunne bestemme, som et mål for distribusjonen av energien, et estimat for et antall av spektralverdier med en størrelse som er større enn eller lik en forutbestemt terskelverdi, eller med en størrelse som er mindre enn eller lik denne terskelverdi, der terskelverdien er en eksakt eller estimert kvantisererverdi som medfører at i en kvantiserer (1014) vil verdier som er mindre enn eller lik kvantisererverdien i kvantisert til null, og • midler (104) for beregning av estimatet (pe) ved å benytte målet (nb(b)) for interferensen, målet for energien og målet for distribusjonen av energien.

2 Anordning ifølge krav 1,karakterisert vedat midlene (106) for beregning er innrettet til å kunne ta med i beregningen størrelsen på spektralverdiene i frekvensbåndet ved beregningen av målet for distribusjonen av energien.

3 Anordning ifølge ett av de foregående krav,karakterisert vedat midlene (106) for beregning er innrettet til å kunne beregne en formfaktor i overensstemmelse med følgende likning:

hvor X(k) er en spektralverdi med frekvensindeks k, der kOffset er en første spektralverdi med bånd b, og der ffac(b) er formfaktoren.

4 Anordning ifølge ett av de foregående krav,karakterisert vedat midlene (106) for beregning er innrettet til å kunne ta med i beregningen en fjerde rot av raten mellom energien i frekvensbåndet og en bredde til frekvensbåndet eller antall spektralverdier i frekvensbåndet.

5 Anordning ifølge ett av de foregående krav,karakterisert vedat midlene (106) for beregning er innrettet til å beregne målet for distribusjonen av energien i overensstemmelse med følgende likninger:

der X(k) er en spektralverdi med frekvensindeks k, der kOffset er en første spektralverdi i et bånd (b), der ffac(b) er en formfaktor, der nl(b) representerer målet for distribusjonen av energien i båndet b, der e(b) er en signalenergi i båndet b, og der width(b) er en bredde til båndet.

6 Anordning ifølge ett av de foregående krav,karakterisert vedat midlene (104) for beregninger av estimatet er innrettet til å benytte en kvotient av energien i frekvensbåndet og interferensen i frekvensbåndet.

7 Anordning ifølge ett av de foregående krav,karakterisert vedat midlene (104) for beregning av estimatet er innrettet til å beregne estimatet ved å benytte følgende uttrykk:

der pe er estimatet, der nl(b) representerer målet for distribusjonen av energien i båndet b, der e(b) er energien til signalet i båndet b, der nb(b) er den tillatte interferens i båndet b, og der s er et additivt ledd fortrinnsvis lik 1,5.

8 Anordning ifølge ett av de foregående krav,karakterisert vedat midlene (104) for beregning av estimatet er innrettet til å beregne estimatet i overensstemmelse med følgende likning:

der pe er estimatet, der nl(b) representerer målet for distribusjonen av energien i båndet b, der e(b) er energien til signalet i båndet b, der nb(b) er den tillatte interferens i båndet b, der s er et additivt ledd fortrinnsvis lik 1,5, der X(k) er en spektralverdi med frekvensindeks k, der kOffset er en første spektralverdi i båndet b, der ffac(b) er en formfaktor, og der witdh(b) er en bredde til båndet.

9 Anordning ifølge ett av de foregående krav,karakterisert vedat signalet er gitt som en spektralrepresentasjon av spektralverdier.

10 Fremgangsmåte for å bestemme et estimat ved behov for informasjonsenheter ved koding av et signal omfattende audio- eller videoinformasjon, der signalet har flere frekvensbånd,karakterisert vedat fremgangsmåten omfatter trinnene: • å tilveiebringe (102) et mål (nb(b)) for en tillatt interferens i et frekvensbånd (b) til signalet, der frekvensbåndet omfatter minst to spektralverdier i en spektralrepresentasjon av signalet, og et mål (e(b)) for energien i signalet i frekvensbåndet (b), • å beregne (106) et mål (nl(b)) for en distribusjon av energien i frekvensbåndet (b), der distribusjonen av energien i frekvensbåndet avviker fra en fullstendig uniform distribusjon, der et estimat for et antall av spektralverdier med en størrelse som er større enn eller er lik en forutbestemt terskelverdi eller med en størrelse som er mindre enn eller lik denne terskelverdi bestemmes som et mål (nl(b)) for distribusjonen av energien, der terskelverdien er en eksakt eller estimert kvantisererverdi som medfører at verdier som er mindre enn eller lik kvantisererverdien, kvantiseres til null i en kvantiserer (1014), og • å beregne (104) estimatet (pe) ved å benytte målet (nb(b)) for interferensen, målet (e(b)) for energien, og målet (nl(b)) for distribusjonen av energien.

11 Datamaskinprogram med en programkode for utførelse av fremgangsmåten for bestemmelse av et estimat for et behov for informasjonsenheter ved koding av et signal ifølge krav 10, når programmet kjøres i en datamaskin.