NO338935B1 - Fremgangsmåte og innretning for å bestemme en kvantifiserende stegstørrelse - Google Patents

Fremgangsmåte og innretning for å bestemme en kvantifiserende stegstørrelse Download PDF

Info

Publication number
NO338935B1
NO338935B1 NO20064439A NO20064439A NO338935B1 NO 338935 B1 NO338935 B1 NO 338935B1 NO 20064439 A NO20064439 A NO 20064439A NO 20064439 A NO20064439 A NO 20064439A NO 338935 B1 NO338935 B1 NO 338935B1
Authority
NO
Norway
Prior art keywords
interference
step size
quantization step
quantization
threshold
Prior art date
Application number
NO20064439A
Other languages
English (en)
Other versions
NO20064439L (no
Inventor
Michael Schug
Bernard Grill
Bodo Teichmann
Nikolaus Rettelbach
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of NO20064439L publication Critical patent/NO20064439L/no
Publication of NO338935B1 publication Critical patent/NO338935B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Paper (AREA)
  • Soil Working Implements (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Length Measuring Devices With Unspecified Measuring Means (AREA)
  • Measurement Of Optical Distance (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

Oppfinnelsen angår audiokodere og især audiokodere som er omformerbasert, dvs. hvor en omforming av en midlertidig visning til en spektralvisning utføres i begynnelsen av koderørledningen.
En omformingsplassert audiokoder av gjeldende teknikk er vist på fig. 3. Koderen vist på fig. 3 er vist i den internasjonale standard ISO/IEC 14496-3: 2001 (E), under avsnitt 4, side 4 og er også kjent som en AAC-koder.
Koderen av gjeldende teknikk vil bli presentert nedenfor. Et audiosignal for koding blir tilført en inngang 1000. Dette audiosignal blir først matet til et skaleringstrinn 102 hvor såkalt AAC-styrkekontroll blir utført for å etablere nivået for audiosignalet. Sideinformasjon fra skaleringen blir tilført en bitstreamformater 1004 som vist av pilen bak blokken 1002 og blokken 1004. Det skalerte audiosignal blir så levert til en MDCT-filterbank 1006. Med AAC-koderen implementerer filterbanken en modifisert, diskret kosinus omforming med 50 % overlappende vinduer, idet vinduslengden bestemmes av en blokk 1008.
Generelt er blokken 1008 for å vise transiente signaler med relativt korte vinduer og vindussignaler som gjerne blir stasjonære med relativt lange vinduer. Dette tjener til et høyt nivå for tidsoppløsning (på bekostning av frekvensoppløsning) for transiente signaler på grunn av de relativt korte vinduer, mens en høyere frekvens oppløsning for signaler som forsøker å være stasjonære, (på bekostning av tidsopp-løsningen) oppnås på grunn av lengre vinduer, idet det er en tendens til å foretrekke lengre vinduer siden disse kan føre til en høyere kodingsstyrke. Ved utgangen av filterbanken 1006, finnes blokker av spektralverdier, idet blokkene er plassert etterfølgende i tid og kan være MDCT-koeffisienter. Fourier-koeffisienter eller delbåndsignaler, avhengig av implementeringen av filterbanken, idet hvert delbåndsignal har en spesifikk begrenset båndbredde angitt av den respektive delbåndskanal i filterbanken 1006 og hvert delbåndsignal har et spesifikt antall delbåndsampler.
Nedenfor er en presentasjon, ved hjelp av eksempel av et tilfelle hvor filterbanken sender midlertidige etterfølgende blokker av MDCT-spektralkoeffisienter som generelt representerer etterfølgende kortids spektra av signalet som skal kodes ved inngangen 1000. En blokk MDCT-spektralverdier blir så matet til en TNS-behandlingsblokk 1010 (TNS = midlertidi støyfonning) hvor midlertidig støyfonning er utført. TNS-teknikk brukes for å forme den midlertidige form av kvantiseringsstøy innenfor hvert vindu av omformingen. Dette oppnås ved å bruke en filtreringsprosess til delene av de spektrale data for hver kanal. Kodingen utføres på vindusbasis. Især utføres følgende trinn for å bruke TNS-verktøyet på et vindu av spektraldata, dvs. en blokk av spektralverdier.
Et frekvensområde for TNS-verktøyet blir først valgt. Et passende valgt område omfatter dekning av et frekvensområde på 1,5 kHz med et filter opp til det høyest mulige skaleringsfaktorbånd. Det skal fremheves at dette sekvensområdet er avhengig av samplingsraten som angitt i AAC-standarden (ISO/IEC 14496-3: 2001
(E)).
Deretter blir en LPC-beregning (LPC = lineær prediktiv koding) utført
nøyaktig ved å bruke spektral MDCT-koeffisientene som finnes i det valgte målfrekvensområdet. For å øke stabilitet blir koeffisienter som tilsvarer frekvenser under 2,5 kHz utelukket fra denne prosessen. Felles LPC-prosedyrer som er kjent fra talebehandling kan brukes for LPC-beregningen, for eksempel ved den kjente Levinson-Durbin algoritmen. Beregningen utføres for den maksimalt tillatte rekkefølge av støyformingsfilteret.
Som resultat av LPC-beregningen oppnås den forventede prediksjonsstyrke PG. I tillegg oppnås refleksjonskoeffisienter eller Parcor-koeffisienter.
Hvis produksjonsstyrken ikke overskrider en spesifikk terskel, blir DNS-verktøyet ikke brukt. I dette tilfellet blir en styreinformasjon skrevet i bitstrømmen, slik at en dekoder får vite at ingen TNS-behandling har blitt utført. Hvis prediksjonsstyrken overskrider en terskel, blir imidlertid TNS-behandling brukt.
I et neste trinn blir refleksjonskoeffisientene kvantisert. Rekkefølgen av støy-formingsfilteret som brukes bestemmes ved fjerning av alle refleksjonskoeffisienter som har en absolutt verdi som er mindre enn terskelen fra "enden" av rekken av refleksjonskoeffisienter. Antallet restkoeffisienter er i størrelsesorden til støy-formingsfilteret. En passende terskel er 0,1.
Restrefleksjonskoeffisientene blir typisk konvertert til lineære prediksjons-koeffisienter, idet den teknisk også er kjent som "opptrappings"-prosedyre.
De beregnede LPC-koeffisienter brukes deretter som kodestøyformingsrester, dvs. som prediksjonsfilterkoeffisienter. Dette FIR-filter brukes for å filtrering i det spesifikke målfrekvensområdet. Et autoregressivt filter brukes ved dekoding, mens et såkalt bevegende gjennomsnittsfarer brukes ved koding. Til slutt blir sideinformasjonen for TNS-verktøyet tilført bitstrømsformateren som vist av pilen mellom TNS-behandlingsblokken 1010 og bitstrømsformateren 1004 på fig. 3.
Deretter blir flere valgfrie verktøy som ikke er vist på fig. 3 ført gjennom, for eksempel et langstidsprediksjonsverktøy, et intensitets/koplingsverktøy, et prediksjonsverktøy, et støysubstituttverktøy, inntil til slutt en midtre/sidekoder 1012 nås. Den midtre/sidekoderen 1012 er aktiv når lydsignalet som skal koples er et flerkanalssignal, dvs. et stereosignal med en venstre kanal og en høyre kanal. Opptil nå, dvs. oppstrøms fra blokken 1012 på fig. 3, av venstre og høyre stereokanal er blitt behandlet, dvs. skalert omfattet av filterbanken, utsatt for TNS-behandling eller ikke, blitt skilt fra hverandre.
I den midtre/sidekoder utføres først verifisering om en midtre/sidekoding er fornuftig, dvs. vil gi en kodeforsterkning i det hele tatt. Midtre/sidekoding vil gi en kodeforsterkning hvis venstre og høyre kanal forsøker å være like siden den midtre kanal i dette tilfellet, dvs. summen av venstre og høyre kanal, nesten er lik venstre eller høyre kanal bortsett fra skalering med en faktor på 1/2 mens sidekanalen bare har svært små verdier siden den er lik forskjellen mellom venstre og høyre kanal. Som konsekvens vil det fremgå at når venstre og høyre kanal er omtrent like, vil forskjellen være omtrent null eller bare omfatte svært små verdier som forhåpentligvis vil bli kvantisert til null i den etterfølgende kvantiserer 1014 og således bli overført på en svært effektiv måte siden en entropikoder 1016 er koplet nedstrøms fra kvantisereren 1014.
Kvantisereren 1014 blir levert som en tillatt interferens per skaleringsfaktorbånd av den psyko-akustisk modell 1020. Kvantisereren virker på en repeterende måte, dvs. en ytre repetisjonssløyfe blir først oppkalt som deretter kaller opp en indre repeteringssløyfe. Generelt blir en kvantiseringsblokk av verdier først utført ved inngangen av kvantisering 1014 hvis man begynner fra kvantiserertrinnet startverdier. Især kvantiserer innersløyfen MDCT-koeffisientene, idet et spesifikt antall biter blir forbrukt i prosessen. Yttersløyfen beregner forvregning og modifisert energi av koeffisientene ved å bruke skaleringsfaktoren for igjen å kalle opp en innerskløyfe. Denne prosess blir gjentatt i et slikt tidsrom inntil en spesifikk betingelsesklausul blir oppfylt. For hver gjentakelse i ytterrepeteringssløyfen, blir signalet rekontruert for å beregne interferenseinnførselen ved den første kvantisering og sammen med den tillatte interferens fra den psykoakustiske modell 1020. I tillegg blir skaleringsfaktorer for slike frekvensbånd som etter denne sammenlikning fremdeles anses å være forstyrret, forstørret av ett eller flere trinn fra en repetisjon til en neste for å være nøyaktig for hver repetisjon av den ytre repetisjonssløyfe.
Etter at en situasjon nås hvor kvantiseringsforstyrrelsen innsatt av kvantiseringen er under den tillatte støy bestemt av den akustiske modell og hvis bitkravene samtidig oppfylles, dvs. at en maksimumsbit-rate ikke overskrides, avsluttes repetisjonen, dvs. analyse ved syntese-metoden og de oppnådde skaleringsfaktorer blir kodet som vist i blokk 1014 og levert i kodet form til bitstrømsformateren 1004 merket av pilen som er tegnet mellom blokken 1014 og blokken 1004. De kvantiserte verdier blir så tillatt en entropikoder 1016 som er typisk for entropikoding for forskjellig skaleringsfaktorbånd ved å bruke flere Huffman-kodetabeller, for å translatere de kvantiserte verdier til et binært format. Som kjent innebærer entropikoding i form av Huffman-koding å falle tilbake til kodetabeller som blir frembrakt på basis av forventede signalstatistikker, og hvor frekvens for verdier blir gitt kortere kodeord enn mindre for de forekommende verdier. De entropikodede verdier blir så levert som faktisk hovedinformasjon til bitstrømformater 1004 som deretter sender de dekodede audiosignal ved utgangssiden i samsvar med en spesifikk bitstrømsyntaks.
Som allerede vist, brukes en finere kvantiseringstrinn i den repeterende kvantisering i det tilfellet hvor interferensen innført av et kvantiseringstrinn er større enn terskelverdien og dette utføres i det håp at dette fører til en reduksjon av kvantiseringsstøyen siden den utførte kvantisering er finere.
Dette konsept er ufordelaktig ved at mengden av data som skal overføres naturligvis øker på grunn av den finere kvantiseringstrinnstørrelse og således avtar komprimeringsstyrken.
I publikasjonen av QUACKENBUSH SR ED (Coding of natural audio in
MPEG-4, PROCEEDING OF THE 1998 IEEE INTERNATIONAL PROCEEDINGS AN ACOUSTICS, SPEECH AND SIGNAL PROCESSING ICASSP 1998,
SEATTLE, WA MAY 12-15 19998, vol. VOL 6 CONF. 23, pages 3797-3800), beskrives en metode for audiokoding der at MPEG-4 spektrale koeffisienter blir kvantisert.
Det er et formål med oppfinnelsen å tilveiebringe et konsept for å bestemme en kvantiseringstrinnstørrelse som på den ene side innfører liten kvantiseringsforstyrrelse og på den annen side leverer en høy komprimeringsstyrke.
Dette formål oppnås ved et apparat for å bestemme kvantiseringstrinnstørrelse ifølge patentkrav 1 ved en fremgangsmåte for å bestemme en kvantiseringstrinns-størrelse som krevd i patentkrav 8 eller av et dataprogram ifølge patentkrav 9.
Oppfinnelsen er basert på den kunnskap at en tilleggsreduksjon i interferens-effekt på den ene side og samtidig økning eller minst en stabilisering av kodestyrken kan oppnås ved at minst flere grovere kvantiseringstrinnstørrelser blir utprøvd selv når den innførte forstyrrelse er større enn en terskelverdi snarere enn å utføre en finere kvantisering som har blitt gjort i tidligere tilfeller. Det viste seg at selv med grovere kvantiseringstrinnstørrelser kan reduksjonene i interferens innført av kvantiseringen oppnås i de tilfeller hvor den grovere kvantiseringsstørrelse "når" verdien som skal kvantiseres bedre enn den finere kvantiseringstrinnstørrelse. Denne effekten er basert på det faktum at kvantifiseringsfeilen ikke avhenger av kvantiseringstrinnstørrelsen, men naturligvis også av verdiene som skal kvantiseres. Hvis verdiene for kvantisering er nær trinnstørrelsen av den grovere kvantiseringstrinnstørrelse, vil en reduksjon i kvantiseringstrinnverdien kunne oppnås samtidig som komprimeringsstyrken øker (siden kvantiseringen har blitt grovere).
Det nye konsept er svært lønnsom, især når det finnes gode estimerte kvantiseringstrinnstørrelser for den første kvantiseringstrinnstørrelse, på basis av hvilken terskelsammerdikning som utføres. I en foretrukket utførelse av oppfinnelsen er derfor foretrukket å bestemme den første kvantiseringstrinnstørrelse ved hjelp av en direkte beregning som tilpasses av den gjennomsnittlige støyenergi snarere enn på basis av et verst-tilfelle-scenario. Således kan de repeterende sløyfer i samsvar med gjeldende teknikk allerede anses å være redusert eller bli fullstendig utdatert.
Den nye postbehandling av kvantiseringstrinnstørrelsen vil deretter bare utprøve en enda grovere kvantiseringstrinnstørrelse i utførelsen for å dra nytte av den beskrevne effekt med "forbedret treff" av en verdi som skal kvantiseres. Hvis det viser seg etterpå at interferensen er oppnådd ved en grovere kvantisermgstrinnstørrelse er mindre enn den tidligere interferens eller også mindre enn terskelen, kan flere repetisjoner utføres for å prøve ut en enda grovere kvantiseringstrinnstørrelse. Denne fremgangsmåte for å utføre den grovere kvantiseringstrinnstørrelse fortsettes helt til den innførte interferens øker igjen. Deretter blir et avslutningskriterium nådd slik at kvantiseringen utføres med den lagrede kvantiseringstrinnstørrelse som har gitt minst innført interferens og slik at kodingsprosedyren kan fortsette etter behov.
I en alternativ utførelse av oppfinnelsen og for å estimere den første kvantiseringstrinnstørrelse, kan en analyse ved syntese-fremgangsmåte som ved tidligere teknikk utføres og fortsettes så lenge inntil et termineringskriterium har blitt nådd der. Deretter kan den nye postbehandling brukes for eventuelt å verifisere om det kan bli mulig å oppnå like gode interferensresultater eller bedre med en grovere kvantiseringstrinnstørrelse. Hvis resultatet blir at en grovere kvantiseringstrinnstørrelse er like god eller til og med bedre når det gjelder den innførte interferens, vil denne trinnstørrelse bli brukt for kvantisering. Hvis resultatet imidlertid er at den grovere kvantiseringen ikke gir noen positive effekt, vil en eventuell kvantisering bli brukt med en kvantiseringstrinnstørrelse som opprinnelig blir bestemt for eksempel ved hjelp av en analyse/syntesemetode.
Ifølge oppfinnelsen kan således ethvert kvantiseringstrinnstørrelse brukes for å utføre en første terskelsammenlikning. Det er irrelevant om denne første kvantiseringstrinnstørrelse allerede har blitt bestemt ved analyse/syntese eller ved hjelp av direkte beregning av kvantiseringstrinnstørelsene.
I en foretrukket utførelse av oppfinnelsen brukes dette konsept for kvantisering av et audiosignal i frekvensområdet. Imidlertid kan konseptet også brukes for kvantisering av et tidsdomenesignal som omfatter audio og/eller videoinformasjon.
I tillegg skal det fremheves at terskelverdien brukt for sammenlikning er en psyko-akustisk eller psyko-optisk tillatt interferens eller en annen terskel som det er ønskelig å bli under. For eksempel kan en terskel faktisk være en tillatt interferens tilveiebrakt av en psyko-akustisk modell. Denne terskelverdi kan også være en tidligere bestemt innført interferens for den opprinnelige kvantiseringstrinnstørrelse eller en annen terskelverdi.
Det skal bemerkes at kvantiseringsverdiene nødvendigvis ikke er Huffman-kodet, men at de alternativt kan være kodet ved hjelp av en annen entropikoding, for eksempel en aritmetisk koding. Alternativt kan de kvantiserte verdier også kodes på en binær måte siden denne kode også har den effekt at færre biter, for overføring av mindre verdier eller verdien er null, kreves det som kreves for å overføre større verdier eller generelt verdier som ikke er lik null.
For å bestemme startverdiene, dvs. den første kvantisermgstrinnstørrelse, kan den gjentatte fremgangsmåte fortrinnsvis helt eller minst for en stor del forkastes hvis kvantiseringstrinnstørrelsen bestemmes fra en direkte støyenergiberegning. Beregning av kvantisermgstrinnstørrelsen fra et nøyaktig støyenergiestimat er betydelig raskere enn beregning i en analyse ved syntese-sløyfe, siden verdiene for beregningen er direkte til stede. Det er ikke nødvendig først å utføre og sammenlikne flere kvantiseringsforsøk inntil en kvantiseringstrinnsstørrelse som er gunstig for kodingen, blir funnet.
Siden kvantiseringskarakteristikkurven kan brukes er en ikke-lineær karakteristikkurve, må imidlertid denne ikke-lineære karakteristikkurve tas i betraktning ved støyenergiberegningen. Det er ikke lenger mulig å bruke den enkle støyenergi beregning for en lineær kvantiserer siden den ikke er nøyaktig nok. Ifølge oppfinnelsen brukes en kvantiserer som har følgende kvantiseringskarakteristikkurve:
I ovennevnte likning er x; spektralverdier som skal kvantiseres. Startverdiene karakteriseres av yi, idet y; således er de kvantiserte spektralverdier. Q er kvantiserings-trinnstørrelsen. Avrundingen er avrundingsfunksjonen som fortrinnsvis er nint-funksjonen, idet "nint" står for "nærmest innteger". Eksponenten som gjør kvantisereren til en ikke-lineær kvantiserer kalles a, idet a er forskjellig fra 1. Typisk vil eksponten a være mindre enn 1, slik at kvantisereren har en komprimerende karakteristikk. Med laget 3 og med AAC, vil eksponenten a være lik 0,75. Parameteren s er en tilleggskonstant som kan ha en verdi, men kan også være null.
Ifølge oppfinnelsen blir følgende forbindelse bruk for å beregne kvantiserings-trinnstørrelsen:
Med a lik % , vil følgende likning oppstå:
I disse likningene står venstre uttrykk for interferens THR som er tillatt i et frekvensbånd og som er tilveiebrakt av en psyko-akustisk modul for et skalerings faktorbånd med frekvenslinjer for i lik ^ til i lik i2. Ovennevnte likning gjør nesten nøyaktig beregning av interferensen innført av en kvantiseringstrinnstørrelse q for en ikke-lineær kvantiserer med ovennevnte kvantisererkarakteristikkurve hvor eksponenten a er forskjellig fra 1 og hvor funksjonen nint fra kvantisererlikningen utfører den faktiske kvantisererlikning som er avrundet til nærmeste integer.
Det skal bemerkes at i stedet for funksjonen nint, kan enhver avrundingsfunksjon brukes, spesifikt også avrunding til neste like eller neste ulike integer eller avrundet til neste tall av 10 osv. Generelt er avrundingsfunksjonen ansvarlig for mapping av en verdi fra settet av verdier med et spesifikt antall tillatte verdier til et sett av verdier med et mindre spesifikt andre antall verdier.
I en foretrukket utførelse av oppfinnelsen har de kvantiserte spektralverdier tidligere gjennomgått TNS-behandling og hvis det gjelder for eksempel stereosignaler til midt/sidekoding, forutsatt at kanaler av slik art midt/sidekoderen blir aktivert.
Således kan skaleringsfaktoren for hvert skaleringsfaktorbånd indikeres direkte og kan mates i en respektiv audiokoder med forbindelsen mellom kvantiseringstrinn-størrelsen og skaleringsfaktoren som blir gitt ifølge følgende likning
Skaleringsfaktoren hentes fra følgende likning.
I en foretrukket utførelse av oppfinnelsen kan det også gjøres bruk av en postbehandlingsrepetisjon basert på analyse ved syntese-prinsipp for lett å variere kvantiseringstrinnstørrelsen som har blitt beregnet direkte uten repetisjon for hvert skaleringsfaktorbånd for å oppnå det faktiske optimum.
Sammenliknet med tidligere teknikk gir den allerede svært nøyaktige beregning av startverdiene, en svært kort repetisjon selv som det har vist seg i de fleste tilfeller at nedstrømsrepetisjonen kan utelates.
Det foretrukne konsept er basert på beregning av trinnstørrelsen ved å bruke gjennomsnittlig støyenergi i således en god og realistisk beregning siden den, i motsetning til gjeldende teknikk, ikke virker i forbindelse med et verst tilfelle-scenario, men bruker en forventet verdi av kvantiseringsfeilen som grunnlag og gjør det således mulig med en subjektiv ekvivalent kvalitet, en mer effektiv koding av data med betydelig redusert bitantall. I tillegg kan en betydelig raskere koder oppnås på grunn av at repetisjonen helt kan utelates og/eller at antallet repetisjonstrinn reduseres betydelig. Det er bemerkelsesverdig, især siden repetisjonssløyfene for kodere av gjeldende teknikk har vært vesentlig for det totale tidskravet til koderen. Således vil selv en reduksjon ha bare en eller noen få repetisjonstrinn føre til betydelig tidsbesparelse av koderen.
Oppfinnelsen skal beskrives nærmere i det følende, der:
fig. 1 er et blokkskjema over et apparat for å bestemme et kvantisert audiosignal,
fig 2 er et flytskjema for å vise postbehandling i samsvar med en foretrukket utførelse av oppfinnelsen,
fig. 3 viser et blokkskjema over en koder av gjeldende teknikk ifølge AAC-standarden,
fig. 4 er et riss av reduksjonen av kvantiseringsinterferens av en grovere kvantiseringstrinnstørrelse, og
fig. 5 viser et blokkskjema over det nye apparat for bestemme kvantiseringstrinnstørrelsen for kvantisering av et signal.
Det nye konsept vil bli presentert nedenfor under henvisning til fig. 5. Fig. 5 viser et riss av et apparat for å bestemme en kvantiseringstrinnstørrelse for kvantisering av et signal omfattende audio- eller videoinformasjon og som er tilveiebrakt via en signalinngang 500. Signalet blir levert til en anordning 502 for å levere en første kvantiseringstrinnstørrelse (QSS) og for å tilveiebringe en interferensterskel som også vil bli innført interferensen nedenfor. Det skal bemerkes at interferensterskelen kan være enhver terskelverdi. Fortrinnsvis vil den imidlertid være en psykoakustisk eller psykooptisk innført interferens idet denne terskel velges slik at et signal som interferensen har blitt innført i fremdeles vil bli omfattet som ikke-manipulert av lyttere eller betraktere.
Terskelverdien (THR) samt den første kvantisermgstrinnstørrelse blir levert til en anordning 504 for å bestemme den faktiske første interferens innført av den første kvantiseringstrinnstørrelse. Bestemmelse av den faktisk innførte interferens utføres fortrinnsvis ved kvantisering ved hjelp av den første kvantisermgstrinnstørrelse, ved gjenkvantisering ved å bruke den første kvantiseringstrinnstørrelse og ved å beregne avstanden mellom det opprinnelige signal og det gjenkvantiserte signal. Når spektralverdier blir behandlet, blir fortrinnsvis tilsvarende spektralverdier for det opprinnelige signal og av det gjenkvantiserte signal kvadrert for deretter å bestemme avstanden av kvadratet. Alternativ fremgangsmåte for å bestemme avstanden kan brukes.
Anordning 504 tilveiebringer en verdi for en første interferens som faktisk blir innført av den første kvantiseringstrinnstørrelse. Den første interferens blir levert sammen med tersklene THR til en anordning 506 for sammenlikning. Anordning 506 utfører en sammenlikning mellom terskelen THR og den første interferens som faktisk ble innført. Hvis den første interferens som faktisk ble innført er større enn terskelen, vil anordningen 506 aktivere en anordning 508 for å velge en andre kvantiseringstrinnstørrelse, idet anordningen 508 er konfigurert for å velge den andre kvantiseringstrinnstørrelse til å være grovere, dvs. større enn den første kvantiseringstrinnstørrelse. Den andre kvantiseringstrinnstørrelse som velges av anordningen 508 blir levert til en anordning 510 for å bestemme den andre interferens som faktisk blir innført. For dette formål henter anordningen 510 det opprinnelige signal samt den andre kvantiseringstrinnstørrelse og utfører igjen en kvantisering ved å bruk den andre kvantiseringstrinnstørrelse, en gjenkvantisering for bruk i den andre kvantiseringstrinnstørrelse og en avstand beregnet mellom det gjenkvantiserte signal og det opprinnelige signal for å levere en anordning 512 for sammenlikning med et mål av den andre interferens som faktisk ble innført. Anordningen 512 for sammenlikning sammenlikner den andre interferens som faktisk ble innført med den første interferens som faktisk ble innført eller med terskelen THR. Hvis den andre interferens som faktisk ble innført er mindre enn den første interferens som faktisk ble innført eller mindre enn terskelverdien THR, vil den andre kvantiseringstrinnstørrelse bli brukt for kvantisering av signalet.
Det skal bemerkes at konseptet vist på fig. 5 bare er skjematisk. Naturligvis er det ikke absolutt nødvendig å tilveiebringe en separat sammenlikningsanordning for innføre sammenlilcningene i blokkene 506 og 512, men det er også mulig å tilveiebringe en enkelt sammenlikningsanordning som blir tilsvarende styrt. Det samme gjelder anordningene 504 og 510 for å bestemme interferensen som faktisk blir innført. Disse behøver heller ikke nødvendigvis å bli konfigurert som separate anordninger.
I tillegg skal det bemerkes at anordningen for å kvantisere ikke nødvendigvis må konfigureres som en anordning som er separat for anordningen 510. Mer nøyaktig blir signalene som blir kvantisert av den andre kvantisermgstrinnstørrelse typisk generert så tidlig som i anordningen 510 når anordningen 510 utfører en kvantisering og gjenkvantifisering for å bestemme interferensen som faktisk ble innført. De kvantiserte verdier som oppnås her kan også lagres og sendes som et kvantisert signal når anordningen 512 for sammeruikning gir et positivt resultat, slik at anordningen 514 for kvantisering "slås sammen" med anordningen 510 for å bestemme den andre interferens som faktisk blir innført.
I en foretrukket utførelse av oppfinnelsen er terskelen THR den maksimalt innføringsbare interferens som bestemmes ved hjelp av psykoakustikk, idet signalet er et audiosignal i dette tilfellet. Terskelen THR her er levert av en psykoakustisk modell som opererer på vanlig måte og tilveiebringer, for hvert skalert faktorbånd, en beregnet maksimal kvantiseringsinterferens som kan innføres i dette skalerte faktorbånd. Den maksimalt innføringsbare interferens er basert på den maskerte terskelverdi ved at den er identisk med den maskerte terskelverdi eller blir avledet fra denne i betydningen av at for eksempel koding med en ca. avstand utføres slik at den innføringsbare interferens er mindre enn den maskerte terskel eller at en temmelig offentlig koding i betydningen av en bitrateredukson utføres spesifikt i betydningen av at den tillatte interferens overskrider den maskerte terskelverdi.
I en foretrukket utførelse av implementeringsanordningen 502 for å tilveiebringe den første kvantiseringstrinnstørrelse vil bli presentert nedenfor under henvisning til fig. 1. I denne henseende er funksjonalitetene av anordning 50 på fig. 2 og anordningen 502 på fig. 5 den samme. Fortrinnsvis blir anordningen 502 konfigurert med funksjonalitetene til anordningen 10 og anordningen 12 på fig. 1. I tillegg blir kvantiserer 514 på fig. 5 konfigurert for å være identisk med kvantisereren 14 på fig. 1 i dette eksempel.
Videre vil en komplett fremgangsmåte som, hvis interferensen som blir innført overskrider terskelen, og så forsøke grovere kvantisermgstrinnstørrelser som presentert nedenfor under henvisning til fig. 2.
I tillegg blir venstre gren på fig. 2 som viser den nye idé, utvidet i det tilfellet at den innførte interferens overskrider terskelen og at en grovere kvantiserings-trinnstørrelse ikke gir noen virkning og hvis bitratekravene ikke er spesielt strenge og/eller hvis det fremdeles finnes noen plass i "bitlagringsbanken", vil det bli utført en repetisjon ved å bruke en mindre, det vil si finere kvantiseringstrinnstørrelse.
Til slutt vil effekten som oppfinnelsen er basert på bli presentert nedenfor under henvisning til fig. 4, spesifikt effekten at det til tross for en grovere kvantiseringstrinnstørrelse, vil en redusert kvantiseringsstøy og tilhørende en økning i komprimeringsstyrken, bli oppnådd.
Fig. 1 viser et apparat for å bestemme et kvantisert audiosignal som blir gitt som en spektralvirkning i form av spektralverdier. Det skal især bemerkes at i det tilfellet at, under henvisning til fig. 3, ingen TNS-behandling og ingen midt/sidekoding har blitt utført, blir spektralverdiene direkte startverdier for filterbanken. Hvis imidlertid bare TNS-behandling men ingen midt/sidekoding utføres, blir spektralverdiene innført i kvantisereren 1015 spektralrestverdier som blir formet fra TNS-prediksjonsfiltrering.
Hvis TNS-behandlingen omfatter en midt/sidekoding blir spektralverdiene innført i det nye apparat, spektralverdier for en midtkanal eller spektralverdier for en sidekanal.
Til å begynne med omfatter oppfinnelsen en anordning for å tilveiebringe en tillatt interferens vist ved 10 på fig. 1. Den psykoakustiske modell 1020 vist på fig. 3, som typisk er konfigurert for å tilveiebringe en tillatt interferens eller terskel, også kalt THR, for hvert skaleringsfaktorbånd, dvs. for en gruppe av flere spektralverdier som er spektralt nærliggende hverandre, kan tjene som anordning for å tilveiebringe en tillatt interferens. Den tillatte interferens er basert på den psykoakustiske maskeringsterskel og indikerer størrelsen av energi som kan innføres i et opprinnelig audiosignal uten at interferensenergien oppfattes av det menneskelige øre. Med andre ord er den tillatte interferens signaldelen som kunstig blir innført (ved kvantisering) og som blir maskert av det faktiske audiosignal.
Anordningen 10 er vist for å beregne den tillatte interferens THR for et frekvensbånd, fortrinnsvis et skaleringsfaktorbånd og levere denne til en nedstrømsanordning 12. Anordningen 12 tjener til å beregne en del av kvantisermgstrirmstørrelsesinformasjonen for frekvensbåndet som den tillatte interferens THR har blitt indikert. Anordningen 12 er konfigurert for å levere delen av kvantisermgstrirmstørrelsesinformasjonen q til en nedstrømsanordning 14 for kvantisering. Anordningen 14 for kvantiseringen opererer i samsvar med kvantiseringsspesifikasjonen tegnet i blokk 14, idet kvantiseringstrinnstørrelses-informasjonen blir brukt i tilfellet vist på fig. 1, for først å dele en spektralverdi x; med verdien for q og deretter eksponensiere resultatet med eksponenten a lik 1 og deretter tillegge en tilleggsfaktor s etter behov.
Etter hvert blir dette resultat levert til en avrundingsfunksjon som i utførelsen på fig. 1 velger dennes integer. I samsvar med definisjonen kan integeren bli generert igjen ved å kutte sifrene bak desimalpunktet, dvs. alltid å runne av nedover. Alternativt kan neste integer også overføres ved å avrunde ned til 0,499 og ved å avrunde oppover fra 0,5. Som et annet alternativ kan en neste integer bestemmes ved alltid å avrunde oppover, avhengig av den enkelte implementering. I stedet for den nint-funksjon, kan en annen avrundingsfunksjon også brukes som generelt sagt mapper en verdi som skal avrundes fra et første større sett av verdier til et andre mindre sett av verdier.
Den kvantiserte spektralverdi vil så bli presentert i frekvensbåndet ved utgangen av anordningen 14. Som det fremgår av likninger vist i blokk 14 vil anordningen 14 naturligvis også leveres, ved siden av kvantiseringstrinnstørrelsen q, til spektralverdien for kvantisering i det tenkte frekvensbånd.
Det skal bemerkes at anordningen 12 ikke nødvendigvis direkte beregner kvantiseringstrinnstørrelsen q, men som en alternativ kvantiseringstrinnstørrelses-informasjon blir skaleringsfaktoren som blir brukt i tidligere omforming basert på audiokodere kan også bli beregnet. Skaleringsfaktorene er festet til den faktiske kvantiseringstrinnstørrelse via forholdet vist på høyre side av blokken 12 på fig. 1. Hvis anordningen for beregne videre er konfigurert for å beregne, som kvantiserings-trinnstørrelsesinformasjon, skaleringsfaktoren scf, vil denne skaleringsfaktor bli levert til anordningen 14 for kvantisering, hvor anordningen eventuelt vil bruke i blokk 14, verdien av 2<1/4scf>for kvantisering sberegning i stedet for verdien q.
En avledning for formen gitt i blokk 12 vil bli gitt nedenfor.
Som beskrevet følger eksponsiallovkvantisereren som vist i blokk 14 følgende forhold:
Den inverse operasjon vil bli presentert som følger:
Denne likning representerer således operasjonen som kreves for gjenkvantisering hvor y; er en kvantisert spektralverdi og hvor x;' er gjenkvantisert spektralverdi. Igjen er q kvantiseringstrinnstørrelsen som er tilknyttet skaleringsfaktoren via forholdet vist på fig. 1 til høyre på blokk 12.
Som forventet, og i tilfelle a lik 1, som for resultatet med denne likningen.
Dersom ovennevnte likning summeres over en vektor av spektralverdiene, vil den totale støyeffekt i et bånd bestemt av indeks i bli som følger:
I sum bestemmes den forventede verdi av kvantiseringsstøyen av en vektor av kvantiseringstrinnstørrelsen q og en såkalt formfaktor som beskriver fordelingen av størrelsen av vektorens komponent.
Formfaktoren som er termen lengst til høyre i ovennevnte likning avhenger av de faktiske inngangsverdier og behøver bare bli beregnet en gang, selv hvis ovennevnte likning beregnes for interferensnivåer THR i varierende grad.
Som allerede beskrevet blir denne likning med a lik % forenklet som følger:
Venstre side av likningen er således et estimat av kvantiseringsstøyenergien som i et grensetilfelle som samsvarer med den tillatte støyenergi (terskel).
Således vil følgende fremgangsmåte bli utført:
Summen over røttene av frekvenslinjene i den høyre del av likningen tilsvarer et mål på frekvenslinjenes ensartethet og er kjent som formfaktoren fortrinnsvis så tidlig som i koderen:
Således vil følgende resultater fremkomme:
hvor q her tilsvarer kvantiserertrinnstørrelsen. Med AAC blir den angitt som: scf er skaleringsfaktoren. Hvis skaleringsfaktoren bestemmes, kan likningen beregnes som følger på basis av forholdet mellom trinnstørrelsen og skaleringsfaktoren:
Oppfinnelsen tilveiebringer således en lukket forbindelse mellom skaleringsfaktorene scf for et skaleringsfaktorbånd som har en spesifikk form faktor og for hvilket en spesifikk interferensterskel THR, som typisk oppstår fra en psykoakustisk modell, bli gitt.
Som allerede beskrevet tilveiebringer beregningen av trinnstørrelsen ved å bruke gjennomsnittlig støy energi et bedre estimat siden det brukte grunnlag er den forventede verdi av kvantiseringsfeilen snarere enn et verst tilfelle-scenario.
Således egner oppfinnelsen seg for å bestemme kvantiseringstrinnstørrelsen og/eller ekvivalenter av dette for skaleringsfaktorbånd uten repetisjoner.
Uansett kan etterbehandling som vist på fig. 2 også utføres hvis kravene til beregningstid ikke er svært strenge. I et første trinn på fig. 2 blir den første kvantiseringstrinnstørrelse beregnet (trinn 50). Beregning av den første kvantiseringstrinnstørrelse (QSS) blir utført ved å bruke en fremgangsmåte som vist på fig. 1. Deretter blir en kvantisering ved å bruke den første kvantiseringstrinnstørrelse utført i et trinn 52, fortrinnsvis i samsvar med kvantisereren som vist ved å bruke blokken 14 på fig. 1. Deretter blir verdiene oppnådd med den første kvantiseringstrinnstørrelse gjenkvantisert for deretter å beregne interferensen som blir innført. Deretter foretas verifisering i et trinn 54 om interferensen som innføres overskrider den bestemte terskelverdi.
Det skal fremheves at kvantiseringstrinnstørrelsen q(eller scf) som har blitt beregnet av tilkoplingen vist i blokk 12 er en approksimering. Hvis forbindelsen gitt i blokk 12 på fig. 1 var nøyaktig, vil det bli fastslått i blokk 54 at den innførte interferens nøyaktig tilsvarer terskelverdien. På grunn av approksimeringen av forbindelsen i blokk 12 på fig. 1, kan imidlertid den interferens falle under terskelverdien THR.
I tillegg skal det bemerkes at avvikelsen fra terskelverdien ikke blir særlig stor, selv den uansett vil være til stede. Hvis resultatet i trinn 54 som blir brukt av den første kvantiseringstrinnstørrelsen at interferensen som innføres faller under terskelen, dvs. om spørsmålet i trinn 54 blir besvart negativt, vil høyere forgrening på fig. 3 bli brukt. Hvis den innførte interferens faller under terskelen innebærer dette at estimatet i blokk 12 på fig. 1 var for pessimistisk, slik at en grovere kvantiseringstrinnstørrelse enn den andre kvantiseringstrinnstørrelse blir satt i et trinn 56.
Graden som den andre kvantiseringstrinnstørrelse er grovere sammenliknet med den første kvantisermgstrinnstørrelse, kan velges. Imidlertid er det å foretrekke å foreta relativt små trinn siden estimatet i blokk 50 allerede vil være relativt nøyaktig.
Ved å bruke den andre grovere (større) kvantiseringstrinnstørrelse, blir en kvantisering av spektralverdiene, en etterfølgende kvantisering og beregning av den andre interferens tilsvarende den andre kvantiseringstrinnstørrelse, utført i et trinn 58.
I et trinn (60) blir en verifisering deretter utført om den andre interferens som tilsvarer den andre kvantiseringstrinnstørrelse som fremdeles er under den opprinnelige terskelverdi. Hvis dette er tilfellet blir den andre kvantiseringstrinnstørrelse lagret (62) og en ny repetisjon blir begynt for å sette en enda grovere kvantisermgstrinnstørrelse i et trinn (56). Deretter blir trinn 60 igjen og eventuelt trinn 62 innført ved å bruke en grovere kvantiseringstrinnstørrelse for å gjenoppstarte en ny periode. Hvis resultatet blir under en gjentakelse i trinn 60 at den andre interferens ikke faller under terskelverdien, dvs. overskrider terskelverdien, har et avslutningskriterium blitt nådd og etter å ha nådd dette utføres kvantiseringen (64) ved å bruke kvantisermgstrinn-størrelsen som har blitt lagret sist.
Siden den første estimerte kvantisermgstrinnstørrelse allerede var en relativt god verdi, vil antallet repetisjoner sammenliknet med dårligere estimerte startverdier bli redusert og føre til vesentlig besparelser i beregningstiden under koding siden gjentakelsene for beregning av kvantiseringstrinnstørrelsen opptar den største del av beregningstiden for koderen.
En ny fremgangsmåte som blir brukt når den innførte interferens faktisk overskrider terskelen, vil bli vist nedenfor under henvisning til den venstre gren på fig. 2.
Til tross for at den innførte interferens allerede overskrider terskelen, blir en enda grovere, andre kvantiseringstrinnstørrelse satt i samsvar med oppfinnelsen (70), idet en kvantisering, gjenkvantisering og beregning av den andre støyinterferens som tilsvarer den andre kvantiseringstrinnstørrelse deretter blir utført i et trinn 72. Deretter foretas verifisering i et trinn 74 om den andre støyinterferens nå faller under terskelen. Hvis dette er tilfellet blir spørsmålet i trinn 74 besvart med "ja" og den andre kvantiseringstrinnstørrelse blir lagret (76). Hvis resultatet imidlertid er at den andre støyinterferens overskrider terskelen, blir enten en kvantisering utført ved å lage kvantiseringsstørrelsen eller, hvis ingen bedre, andre kvantiseringstrinnstørrelser er blitt lagret, ført en gjentakelse gjennom hvor, som ved gjeldende teknikk, en finere, andre kvantiseringstrinnstørrelse blir valgt for å "skyve" den innførte interferens under terskelen.
Nedenfor vil det bli beskrevet om en forbedring fremdeles kan oppnås når det brukes en grovere kvantisermgstrinnstørrelse, især når den innførte interferens overskrider terskelverdien. Opp til nå har behandlingen bare blitt foretatt under en antakelse at en finere kvantiseringstrinnstørrelse fører til innføring av en mindre kvantiseringsenergi og at en større kvantiseringstrinnstørrelse fører til innføring av en høyere kvantiseringsinterferens. I et gjennomsnitt kan dette være tilfelle, men ikke alltid og det motsatte vil især være tilfelle for tynne populerte skaleringsfaktorbånd og især når kvantisereren har en ikke-lineær karakteristikk. Det har blitt funnet i samsvar med oppfinnelsen at et antall tilfeller som ikke skal undervurderes, en grovere kvantiseringstrinnstørrelse fører til innføring av mindre interferens. Dette kan spores tilbake til det faktum at det også kan være tilfelle når en grovere kvantiserings-trinnstørrelse når en spektral verdi for kvantisering som er bedre enn den finere kvantiseringstrinnstørrelse som beskrevet ved å bruke eksempelet nedenfor under henvisning til fig. 4.
Som eksempel viser fig. 4 en kvantiseringskarakteristikk (60) som tilveiebringer fire kvantisermgstrinn 0, 1, 2, 3 når inngangssignaler mellom 0 og 1 blir kvantisert. De kvantiserte verdier tilsvarer 0,0, 0,25, 0, 5, 0,75. Som sammenlikning er en annen, grovere kvantiseringskarakteristikk tegnet stiplet på fig. 4 (62), som bare har tre kvantiseringstrinn som tilsvarer de absolutte verdier av 0,0, 0,33, 0,66. I det første tilfellet, dvs. med kvantiseringskarakteristikkurven 60, er kvantiseringstrinnstørrelsen lik 0,25 mens i det andre tilfellet, dvs. med kvantiseringskarakteristikkurven 62, er kvantiseringstrinnstørrelsen lik 0,33. Den andre kvantiseringskarakteristikkurven (62) har derfor en grovere kvantiseringstrinnstørrelse enn den første kvantiseringskarakteristikkurve (60) som viser en fin kvantiseringskarakteristikkurve. Hvis verdien x; = 0,33 som skal kvantiseres, er tenkt, vil det fremgå av fig. 4 at feilen i kvantiseringen ved å bruke den finere kvantiserer med fire trinn er lik forskjellen mellom 0,33 og 0,25 og således er 0,08. På den annen side er feilen i kvantiseringen ved å bruke tre trinn lik 0 på grunn av at kvantisermgstrinnet nøyaktig "oppnår" verdien som skal kvantiseres.
Det vil derfor fremgå av fig. 4 at en grovere kvantisering kan føre til mindre kvantiseringsfeil enn en finere kvantisering.
I tillegg er en grovere kvantisering den avgjørende faktor for en mindre startbitrate siden mulige tilstander bare finnes tre tilstander, dvs. 0,1, 2, i motsetning til tilfellet ved den finere kvantiserer hvor fire trinn 0, 1, 2, 3 må signaliseres. I tillegg har den grovere kvantiseringstrinnstørrelse fordelen at flere verdier fører til at de blir "kvantisert vekk" til 0 enn ved en finere kvantiseringstrinnstørrelse hvor feilverdier blir kvantisert vekk til "0". Selv når flere spektralverdier i et skaleringsfaktorbånd er tenkt, vil "kvantiseringen 0" føre til en økning i kvantiseringsfeilen og dette bør ikke nødvendigvis bli problematisk siden den grovere kvantisermgstrinnstørrelse kan nå andre mer viktige spektralverdier på en mer nøyaktig måte, slik at kvantiseringsfeilen blir utjevnet og til og med overkompensert for av den grovere kvantisering av de andre spektralverdier, idet en mindre bitrate vil oppstå samtidig.
Med andre ord er koderresultatet som oppnås "bedre" totalt siden det nye konsept oppnår et mindre antall tilstander for signalering og samtidig forbedrer "oppnåelse " av kvantiseringstrinnene.
Ifølge oppfinnelsen som vist i den venstre gren på fig. 2, er det forsøkt en enda grovere kvantiseringstrinnstørrelse med begynnelse fra estimerte verdier (trinn 50 på fig. 2) når den innførte interferens overskrider terskelen for å dra fordel av effekten vist på fig. 4. I tillegg har det vist seg at denne effekt er enda mer betydelig ved ikke-lineære kvantiserere enn i tilfellet vist på fig. 4 med to lineære kvantiseringskarak-teristikker.
Det viste konsept av kvantiseringstrinnstørrelsens etterbehandling og/eller skaleringsfaktor etter behandling egner seg således til å forbedre resultatet av skaleringsfaktorestimatoren.
Ved å begynne fra kvantiseringstrinnstørrelsene bestemt i skaleringsfaktor-ekstimatoren (50 på fig. 2), blir nye kvantisermgstrinnstørrelser som er så stor som mulig og for hvilke feilbestemmelsen, den bestemte terskelverdi, bestemt i analyse ved syntesetrinnet.
Følgelig blir spektrumet kvantisert med de beregnede kvantiseringstrinn-størrelser og energien av feilsignalet, dvs. fortrinnsvis kvadratsummen av forskjellen mellom originale og kvantiserte spektralverdier, blir bestemt. Alternativt kan et tilsvarende tidssignal for feilbestemmelse også brukes selv om bruken av spektralverdier foretrekkes.
Kvantiseringstrinnstørrelsen og feilsignalet blir lagret som hittil best oppnådde resultat. Hvis den beregnede interferens overskrider en terskelverdi, brukes følgende fremgangsmåte: Skaleringsfaktoren innenfor et bestemt område blir variert rundt den verdien som opprinnelig ble beregnet og hvor det også især brukes grovere kvantiserings-trinnstørrelse (70).
For hver ny skaleringsfaktor blir spektrumet igjen kvantisert og energien av feilsignalet blir beregnet. Hvis feilsignalet er mindre enn den minste som hittil har blitt beregnet, blir gjeldende kvantiseringstrinnverdi låst sammen med energien av det tilhørende feilsignal, som best resultat oppnådd så langt.
Ifølge oppfinnelsen blir ikke bare relativt små, men også relativt store skaleringsfaktorer tatt i betraktning for å dra fordel av konseptet beskrevet i forbindelse med fig. 4, især når kvantisereren er en ikke-lineær kvantiserer.
Hvis den beregnede interferens imidlertid faller under terskelverdien, dvs. hvis beregning i trinn 50 var for pessimistisk, vil skaleringsfaktoren bli variert innenfor et bestemt område rundt den opprinnelige beregnede verdi.
For hver ny skaleringsfaktor blir spektrumet gjenkvantisert og energien av feilsignalet blir beregnet.
Hvis feilsignalet er mindre enn den minste som er blitt beregnet så langt, blir gjeldende kvantiseringstrinnstørrelse låst sammen med energien av det tilhørende feilsignal som beste resultat så langt.
Imidlertid blir bare relativt grove skaleringsfaktorer tatt i betraktning her for å redusere antallet biter som kreves for koding av audiospektrumet.
Avhengig av omstendighetene, kan den nye fremgangsmåte implementeres i maskinvaren eller programvaren. Implementering kan utføres på et digitalt lagringsmedium, især en disk eller en CD med elektronisk lesbare styringssignaler som samvirker med et programmerbart datasystem slik at fremgangsmåten kan utføres.
Generelt består oppfinnelsen således av et dataprogramprodukt med en programkode lagret på en maskinbar leser for å utføre den nye fremgangsmåte når dataprogramproduktet kjøres på en datamaskin. Med andre ord kan oppfinnelsen således realiseres som et dataprogram med en programkode for å utføre fremgangsmåten når dataprogrammet kjøres på en datamaskin.

Claims (10)

1. Apparat for å bestemme en kvantiseringstrinnstørrelse for kvantisering av et signal omfattende audio- eller videoinformasjon,karakterisert vedå omfatte: en anordning (502) for å tilveiebringe en første kvantiseringstrinnstørrelse og en interferensterskelverdi, en anordning (504) for å bestemme en første interferens innført av den første kvantiseringstrinnstørrelse, en anordning (506) for å sammenlikne interferensen innført av den første kvantiseringstrinnstørrelse med interferensterskelen, en anordning (508) for å velge en andre kvantiseringstrinnstørrelse som er større enn den første hvis den første interferens som er innført overskrider interferensterskelen, anordning (510) for å bestemme en andre interferens innført av den andre kvantiseringstrinnstørrelse, anordning (512) for å sammenlikne den andre innførte interferens med interferensterskelen eller den første innførte interferens, og anordning (514) for å kvantisere signalet med den andre kvantiseringstrinnstørrelse hvis den andre innførte interferens er mindre enn den første innførte interferens eller er mindre enn interferensterskelen.
2. Apparat ifølge krav 1,karakterisert vedat signalet er et audiosignal og omfatter spektralverdier av en spektral visning av audiosignalet og hvor anordningen (502) for å tilveiebringe er konfigurert som en psykoakustisk modell som beregner en tillatt interferens for et frekvensbånd på basis av psykoakustisk maskeringsterskel.
3. Apparat ifølge krav 1 eller 2,karakterisert vedat anordningen (504) for å bestemme den første innførte interferens eller anordning (510) for å beregne en andre innførte interferens er konfigurert for å kvantisere ved å bruke en kvantiseringstrinnstørrelse for å gjenkvantisere ved å bruke kvantiseringstrinnstørrelsen og beregne en avstand mellom det gjenkvantiserte signal og signalet for å oppnå den innførte interferens.
4. Apparat ifølge de foregående krav,karakterisert vedat anordning (502) for å tilveiebringe den første kvantiseringstrinnstørrelse er konfigurert for å beregne kvantiseringstrinnstørrelsen i samsvar med følgende likning:
hvor anordningen (514) for å kvantisere er konfigurert for å kvantisere i samsvar med følgende likning:
hvor x; er en spektralverdi for kvantisering, hvor q representerer kvantiseringstrinn-størrelsesinformasjonen, idet s er et tall som er forskjellig eller likt 0, idet a er en eksponent som er forskjellig fra "1", idet avrundingen er en avrundingsfunksjon som mapper en verdi fra et første, større verdiområde til en verdi innenfor et andre, mindre verdiområde, idet ^|Ax,. (THR) er den tillatte interferens og hvor i' er en kjøreindeks for spektralverdier i frekvensbåndet.
5. Apparat ifølge ett av de foregående krav,karakterisert vedat anordningen (508) for å velge er videre konfigurert for å velge en større kvantiseringstrinnstørrelse når den innførte interferens er mindre enn den tillatte interferens.
6. Apparat ifølge ett av de foregående krav,karakterisert vedat anordningen (502) for å tilveiebringe er konfigurert for å tilveiebringe den første kvantiseringstrinn-størrelse som resultat av en analyse/syntesebestemmelse.
7. Apparat ifølge ett av de foregående krav,karakterisert vedat anordningen (508) for å velge er konfigurert for å endre kvantiseringstrinnstørrelsen for et frekvensbånd uavhengig av en kvantiseringstrinnstørrelse for et annet frekvensbånd.
8. Apparat ifølge ett av de foregående krav,karakterisert vedat anordningen (502) for tilveiebringing er konfigurert for å bestemme den første kvantiserings-trinnstørrelse som resultat av et foregående repetisjonstrinn med en grovere kvantiseringstrinnstørrelse og hvor interferensterskelen er en innført interferens i det foregående repetisjonstrinn for å bestemme den første kvantiseringstrinnstørrelse.
9. Fremgangsmåte for å bestemme en kvantiseringstrinnstørrelse for kvantisering av et signal omfattende audio- eller videoinformasjon, idet fremgangsmåten karakteriseres ved : tilveiebringe (502) en første kvantiseringstrinnstørrelse og en interferensterskel, bestemme (504) en første interferens innført av den første kvantiserings-trinnstørrelse, sammenlikne (506) interferensen innført av den første kvantisermgstrinn-størrelse med interferensterskelen, velge (508) en andre kvantiseringstrinnstørrelse som er større enn den første hvis den første innførte interferens beskriver interferensterskelen, bestemme (510) en andre interferens innført av den andre kvantiseringstrinnstørrelse, sammenlikne (512) den andre innførte interferens med interferensterskelen eller den første innførte interferens, kvantisere (514) signalet med den andre kvantiseringstrinnstørrelse hvis den andre innførte interferens er mindre enn den første innførte interferens eller er mindre enn interferensterskelen.
10. Lagringsmediumkarakterisert veden programkode for å utføre fremgangsmåten ifølge krav 9 når dataprogrammet kjøres på en datamaskin.
NO20064439A 2004-03-01 2006-09-29 Fremgangsmåte og innretning for å bestemme en kvantifiserende stegstørrelse NO338935B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004009955A DE102004009955B3 (de) 2004-03-01 2004-03-01 Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
PCT/EP2005/001652 WO2005083681A1 (de) 2004-03-01 2005-02-17 Vorrichtung und verfahren zum ermitteln einer quantisierer-schrittweite

Publications (2)

Publication Number Publication Date
NO20064439L NO20064439L (no) 2006-11-29
NO338935B1 true NO338935B1 (no) 2016-10-31

Family

ID=34745332

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20064439A NO338935B1 (no) 2004-03-01 2006-09-29 Fremgangsmåte og innretning for å bestemme en kvantifiserende stegstørrelse

Country Status (17)

Country Link
US (2) US7574355B2 (no)
EP (1) EP1687810B1 (no)
JP (1) JP4531805B2 (no)
KR (1) KR100852481B1 (no)
CN (1) CN1922656B (no)
AT (1) ATE386320T1 (no)
AU (1) AU2005217508B2 (no)
BR (1) BRPI0507229A (no)
CA (1) CA2557777C (no)
DE (2) DE102004009955B3 (no)
ES (1) ES2302185T3 (no)
HK (1) HK1093596A1 (no)
IL (1) IL176688A (no)
NO (1) NO338935B1 (no)
PT (1) PT1687810E (no)
RU (1) RU2329549C2 (no)
WO (1) WO2005083681A1 (no)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
US7702161B2 (en) * 2005-10-28 2010-04-20 Aspeed Technology Inc. Progressive differential motion JPEG codec
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
WO2008046492A1 (en) * 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
ATE518224T1 (de) 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
US8559742B2 (en) * 2008-10-10 2013-10-15 Accusoft Corporation Image encoding methods and apparatus providing improved visual results
BR122019026166B1 (pt) 2010-04-09 2021-01-05 Dolby International Ab sistema decodificador, aparelho e método para emitir um sinal de áudio estereofônico tendo um canal esquerdo e um canal direito e meio legível por computador não transitório
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
US20130132100A1 (en) * 2011-10-28 2013-05-23 Electronics And Telecommunications Research Institute Apparatus and method for codec signal in a communication system
WO2013113351A1 (en) * 2012-01-30 2013-08-08 Nokia Siemens Networks Oy Processing a signal in station apparatus
US8947274B2 (en) * 2012-06-21 2015-02-03 Mitsubishi Electric Corporation Encoding apparatus, decoding apparatus, encoding method, encoding program, decoding method, and decoding program
EP3660843B1 (en) * 2013-09-13 2022-11-09 Samsung Electronics Co., Ltd. Lossless coding method
WO2019049543A1 (ja) * 2017-09-08 2019-03-14 ソニー株式会社 音声処理装置、音声処理方法及びプログラム
KR102589303B1 (ko) * 2017-11-02 2023-10-24 삼성전자주식회사 고정 소수점 타입의 뉴럴 네트워크를 생성하는 방법 및 장치
DE102018112215B3 (de) * 2018-04-30 2019-07-25 Basler Ag Quantisiererbestimmung, computerlesbares Medium und Vorrichtung, die mindestens zwei Quantisierer implementiert
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
US11701278B2 (en) 2019-08-23 2023-07-18 Hill-Rom Services. Inc. Technologies for efficiently tracking the location of a patient bed
US11165435B2 (en) * 2019-10-08 2021-11-02 Tron Future Tech Inc. Signal converting apparatus
CN115052309A (zh) * 2021-03-09 2022-09-13 中兴通讯股份有限公司 干扰检测方法、装置、设备和存储介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4751736A (en) * 1985-01-31 1988-06-14 Communications Satellite Corporation Variable bit rate speech codec with backward-type prediction and quantization
DE3688980T2 (de) * 1986-10-30 1994-04-21 Ibm Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US5542008A (en) * 1990-02-28 1996-07-30 Victor Company Of Japan, Ltd. Method of and apparatus for compressing image representing signals
ES2087522T3 (es) * 1991-01-08 1996-07-16 Dolby Lab Licensing Corp Descodificacion/codificacion para campos sonoros multidimensionales.
US5664057A (en) * 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
JPH07225598A (ja) * 1993-09-22 1995-08-22 Massachusetts Inst Of Technol <Mit> 動的に決定された臨界帯域を用いる音響コード化の方法および装置
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5754742A (en) * 1995-05-12 1998-05-19 Intel Corporation Setting quantization level to match DCT coefficients
JPH0944198A (ja) * 1995-07-25 1997-02-14 Victor Co Of Japan Ltd 音声の準可逆符号化装置
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3784993B2 (ja) * 1998-06-26 2006-06-14 株式会社リコー 音響信号の符号化・量子化方法
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
TW499672B (en) * 2000-02-18 2002-08-21 Intervideo Inc Fast convergence method for bit allocation stage of MPEG audio layer 3 encoders
US7286715B2 (en) * 2001-03-28 2007-10-23 Sony Corporation Quantization apparatus, quantization method, quantization program, and recording medium
JP3972000B2 (ja) * 2001-04-09 2007-09-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 特定のステップサイズ適応を備えるadpcm音声コーディングシステム
DE10129239C1 (de) * 2001-06-18 2002-10-31 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Einbetten eines Wasserzeichens in ein Audiosignal
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
JP4212591B2 (ja) * 2003-06-30 2009-01-21 富士通株式会社 オーディオ符号化装置
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
JP2008000002A (ja) * 2004-09-30 2008-01-10 Sysmex Corp リブロース2リン酸カルボキシラーゼスモールチェーン1A(RBCS−1A)遺伝子及び/又は該遺伝子のmRNAを検出するための核酸増幅用プライマ、及び内部標準として該遺伝子及び/又は該遺伝子のmRNAを用いた検査方法。
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
JP4765521B2 (ja) * 2005-09-30 2011-09-07 株式会社日立製作所 可変利得増幅器
JP4921180B2 (ja) 2006-01-25 2012-04-25 キヤノン株式会社 放射線検出装置及び放射線撮像システム
JP4554561B2 (ja) * 2006-06-20 2010-09-29 株式会社シマノ 釣り用グローブ
WO2008046492A1 (en) * 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
US8204744B2 (en) * 2008-12-01 2012-06-19 Research In Motion Limited Optimization of MP3 audio encoding by scale factors and global quantization step size

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QUACKENBUSH SR ED: coding of natural audio in MPEG-4, PROCEEDING OF THE 1998 IEEE INTERNATIONAL PROCEEDINGS AN ACOUSTICS, SPEECH AND SIGNAL PROCESSING ICASSP 1998, SEATTLE, WA MAY 12-15 19998, vol. VOL 6 CONF. 23, pages 3797-3800. , Dated: 01.01.0001 *

Also Published As

Publication number Publication date
NO20064439L (no) 2006-11-29
EP1687810A1 (de) 2006-08-09
US20060293884A1 (en) 2006-12-28
CN1922656B (zh) 2010-04-14
IL176688A0 (en) 2006-10-31
CA2557777A1 (en) 2005-09-09
CA2557777C (en) 2012-07-31
DE102004009955B3 (de) 2005-08-11
ATE386320T1 (de) 2008-03-15
ES2302185T3 (es) 2008-07-01
KR100852481B1 (ko) 2008-08-18
RU2006130966A (ru) 2008-03-20
EP1687810B1 (de) 2008-02-13
US7574355B2 (en) 2009-08-11
JP2007525716A (ja) 2007-09-06
WO2005083681A1 (de) 2005-09-09
PT1687810E (pt) 2008-05-23
JP4531805B2 (ja) 2010-08-25
US20090274210A1 (en) 2009-11-05
BRPI0507229A (pt) 2007-06-26
DE502005002824D1 (de) 2008-03-27
US8756056B2 (en) 2014-06-17
IL176688A (en) 2011-01-31
RU2329549C2 (ru) 2008-07-20
KR20060121973A (ko) 2006-11-29
HK1093596A1 (en) 2007-03-02
AU2005217508A1 (en) 2005-09-09
AU2005217508B2 (en) 2008-05-15
CN1922656A (zh) 2007-02-28
WO2005083681A8 (de) 2008-03-27

Similar Documents

Publication Publication Date Title
NO338935B1 (no) Fremgangsmåte og innretning for å bestemme en kvantifiserende stegstørrelse
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
CN110114826B (zh) 使用相位补偿对多声道信号进行下混合或上混合的装置和方法
EP2573765B1 (en) Audio encoder and decoder
KR101147878B1 (ko) 코딩 및 디코딩 방법 및 장치
KR100814673B1 (ko) 오디오 부호화
US7181404B2 (en) Method and apparatus for audio compression
KR100941011B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
EP3405950B1 (en) Stereo audio coding with ild-based normalisation prior to mid/side decision
KR101754094B1 (ko) 고급 양자화기
KR20100063086A (ko) 주파수 서브-대역들 내의 스펙트럼 다이나믹스에 기초한 오디오 코딩에서의 시간적 마스킹
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
US20070033021A1 (en) Apparatus and method for audio encoding
NO338917B1 (no) Apparat og fremgangsmåte for å komme frem til et estimat
US20110137661A1 (en) Quantizing device, encoding device, quantizing method, and encoding method
WO2003107329A1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US20230133513A1 (en) Audio decoder, audio encoder, and related methods using joint coding of scale parameters for channels of a multi-channel audio signal
EP3109611A1 (en) Signal encoding method and apparatus, and signal decoding method and apparatus
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
EP2581904B1 (en) Audio (de)coding apparatus and method
JP5379871B2 (ja) オーディオ符号化のための量子化
Yang et al. A Bandwidth Extension Scheme for G. 711 Speech by Embedding Multiple Highband Gains
MXPA06009932A (en) Device and method for determining a quantiser step size