NO338701B1 - Parametrisk felleskoding av audiokilder - Google Patents

Parametrisk felleskoding av audiokilder Download PDF

Info

Publication number
NO338701B1
NO338701B1 NO20073892A NO20073892A NO338701B1 NO 338701 B1 NO338701 B1 NO 338701B1 NO 20073892 A NO20073892 A NO 20073892A NO 20073892 A NO20073892 A NO 20073892A NO 338701 B1 NO338701 B1 NO 338701B1
Authority
NO
Norway
Prior art keywords
source signals
audio
source
parameters
signals
Prior art date
Application number
NO20073892A
Other languages
English (en)
Other versions
NO20073892L (no
Inventor
Christof Faller
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34938725&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=NO338701(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of NO20073892L publication Critical patent/NO20073892L/no
Publication of NO338701B1 publication Critical patent/NO338701B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Description

I. Innledning
I et generelt kodeproblem har man flere (mono) kildesignalerSi(«) (1 < / < M) og en beskrivelsesvektor S(n) av den aktuelle scene eller situasjon, der n er tidsindeksen. Beskrivelsesvektoren inneholder parametere så som (virtuelle) kildeposisjoner, kildebredder og akustiske parametere så som (virtuelle) romparametere. Beskrivelsen kan være tidsinvariant eller endre seg over tid. Kildesignalene og beskrivelsen av scenen eller situasjon er kodet og overføres til en koder, slik at de kodede kildesignaler i,, (w) blir fortløpende blandet som en funksjon av scenebeskrivelsen S( n) for å generere et bølgefeltsyntesegrunnlag, et flerkanals signalspektrum eller stereosignaler som en funksjon av beskrivelsesvektoren for scenen. Dekoderens utgangssignaler angis som x,. («) (0 < / < N). Merk at scenebeskrivelsesvektoren S(«) ikke behøver sendes ut, men kan bestemmes i dekoderen. I dette dokument vil uttrykket "stereoaudiosignal" alltid referere til tokanals audiosignaler for stereofoni.
ISO/IEC MPEG-4 er et system som gjelder det beskrevne kodescenarium. Systemet beskriver scenebeskrivelsesvektoren og bruker for hvert ("naturlig") kildesignal en separat mono-audiokoder, så som en AAC-audiokoder. Når imidlertid en kompleks scene med mange kilder skal blandes, blir bitraten stor, dvs. at den skalerer opp med antallet kilder. Koding av et enkelt kildesignal og med god kvalitet krever faktisk omkring 60-90 kb/s.
Tidligere kunne man ta hånd om et spesielt tilfelle av det beskrevne kodeproblem (se litteraturstedene [1] og [2] ved hjelp av et skjema som ble kalt Binaural Cue Coding (BCC), dvs. binaural køkoding for å gi en fleksibel gjengivelse. Ved bare å sende summen av de gitte kildesignaler pluss sideinformasjon med liten bitrate kunne man oppnå en redusert slik bitrate. Kildesignalene kan imidlertid ikke gjen-etableres i dekoderen, og skjemaet ble derfor begrenset til surroundsignalgenerering for stereo og flerkanalssystemer. Man brukte også en forenklet blanding basert på amplitude- og forsinkelses "panning", dvs. tilsvarende filmteknikkens panorering. Følgelig kunne man regulere og styre kilderetningen, men ingen andre attributter for rombildet når det gjaldt lyd. En annen begrensning av dette skjemaet var dets begrensede lydkvalitet. Særskilt er det slik at en reduksjon i lydkvaliteten følger av en økning av antallet kildesignaler.
Dokumentet [1] ("Binaural Cue Coding, Parametric Stereo, MP3 Surround, MPEG Surround") dekker tilfellet der N audiokanaler blir kodet og N audiokanaler med liknende køer som de originale audiokalaer blir dekodet. Den sendte sideinformasjon omfatter mellom-kanals køparametre vedrørende forskjeller mellom inngangs-kanalene.
Kanalene med stereo- og flerkanalsaudiosignaler inneholder blandinger av audiokildesignaler og er således forskjellige i natur enn rene audiokildesignaler. Stereo- og multikanalaudiosignaler blandes slik at når man spiller dem tilbake via et passende tilbakespillings- eller avspillingssystem vil en lytter kunne oppfatte "lydtrinn" i romavbildningen når det gjelder det lydmessige, slik det blir etablert ved inn-spillingsoppsettet eller ved utformingen som dannes når blandingen utføres av operatøren på "miksebordet". Flere skjemaer for felleskoding for kanalene for et stereo-eller multikanalaudiosignal er derfor tidligere foreslått.
Patentpublikasjonen WO 9820709 (SRS LABS INC) 1998.05.14 beskriver system og metode for behandling av diskrete lydsignaler, der venstre og høyre signaler omfatter lydinformasjon som er beregnet for avspilling som et front lydbilde, og om-ringet/surround venstre og høyre signaler inneholder lydinformasjon som er beregnet for avspilling fra et gjengivelse/playback lydbilde, hvor det genereres et par med venstre og høyre utgangssignaler for reproduksjon fra frontlydbildet til å skape en oppfatning av et tredimensjonalt lydbilde uten behov for at selve høyttalere er plassert nær en scene.
Kort gjennomgåelse av oppfinnelsen
Hensikten med denne oppfinnelse er å komme frem til en fremgangsmåte for overføring av flere kildesignaler ved bruk av minimal båndbredde. I de fleste kjente fremgangsmåter for slikt er tilbakespillingsformatet (så som stereo 5.1) bestemt på forhånd og har en direkte påvirkning på kodescenariet. Lydstrømmen på dekodersiden bør bare bruke dette forhåndsbestemte avspillingsformat og binder derfor brukeren til et forhåndsbestemt avspillingsscenarium (så som stereo).
Det foreslåtte skjema for felleskoding av lydkildesignaler er så vidt bekjent det første i sitt slag. Det er utformet for felleskoding av audiokildesignaler, idet disse signaler vanligvis er monosignaler som ikke er egnet for avspilling via et stereosystem eller et annet audiosystem av flerkanaltypen. Kort gjennomgått vil audiokildesignalene i det følgende ofte kalles kildesignaler.
Audiokildesignaler behøver først en blanding til stereo-, flerkanal- eller bølge-feltsyntese audiosignaler før avspillingen. Et audiokildesignal kan være fra et enkelt musikkinstrument eller lignende eller fra en som snakker, eller det kan være summen av flere instrumentlydkilder og talende personer. En annen type audiokilde signal er et monoaudiosignal som er fanget opp med en punktrettet mikrofon under en konsert. Ofte ligger audiokildesignalene lagret på flersporsopptakere eller i opptakssystemer basert på harddisklagring.
Oppfinnelsens foreslåtte skjema for felleskoding av audiokildesignaler er basert utelukkende på sending av summen av audiokildesignalene, på denne måte:
eller en veid sum av kildesignalene. Eventuelt kan veid summering utføres med forskjellige vektfaktorer i forskjellige subband, og vektfaktorene kan være tilpasset over tid. Summering med utjevning ("equalization"), som beskrevet i kapittel 3.3.2. i litteraturstedet [1] kan også anvendes. I det følgende vil vi når det gjelder omtale av en sum eller et summesignal alltid mene et signal som er generert ved ligning (1) ovenfor eller generert som beskrevet i teksten. I tillegg til summesignalet overføres sideinformasjon, og sammen gir dette den representative verdi for den utgående audiostrøm. Eventuelt kan summesignalet kodes ved bruk av en konvensjonell monoaudiokoder. Lydstrømrnen kan lagres i en fil (på et platemedium så som CD, DVD, harddisk: HD) eller kringkastes slik at mottakeren fanger opp strømmen. Sideinformasjonen representerer de statiske bestemte egenskaper for kildesignalene, idet disse da tilsvarer de viktigste faktorer for bestemmelse av de tonenyanser som kan oppfattes fra blanderutgangssignalene. Det skal vises at disse egneskaper eller parametere er tidsutviklede spektralomhylninger og autokorrelasjonsfunksjoner. Omkring 3kb/s av sideinformasjon overføres per kildesignal. På mottakersiden blir kildesignalene s,(«) (1 < / < M) gjenopprettet med de ovenfor nevnte statiske egenskaper som en tilnærmelse til de tilsvarende egenskaper hos de opprinnelige kildesignaler og summesignalet.
Kort gjennomgåelse av tegningene
Oppfinnelsen skal som nevnt gjennomgås i nærmere detalj nedenfor, og det vises samtidig til tegningene, hvor: Fig. 1 viser et skjema hvor sendingen av hvert kildesignal utføres uavhengig for
senere signalbehandling eller prosessering,
fig. 2 viser flere kilder sendt ut som et summesignal pluss sideinformasjon,
fig. 3 viser et blokkskjema over systemet BCC nevnt ovenfor,
fig. 4 viser en blander for frembringelse av stereosignaler basert på flere kildesignaler,
fig. 5 viser avhengigheten mellom ICTD, ICLD og ICC og kildesignalets subbåndeffekt,
fig. 6 viser prosessen med sideinformasjonsfrembringelse,
fig. 7 viser prosessen med estimering av LPC-parametrene for hvert kildesignal,
fig. 8 viser prosessen med gjenetablering av kildesignalene fra et summesignal,
fig. 9 viser et alternativt skjema for frembringelse av hvert signal fra summesignalet, fig. 10 viser en blander for å frembringe stereosignaler basert summesignalet,
fig. 11 viser en amplitudepanningsalgoritme som hindrer at kildenivåene blir
avhengige av blandeparametrene,
fig. 12 viser en gruppe høyttalere (et array) for et avspillingssystem med bølgefelt-syntese,
fig. 13 viser hvordan man skal gjenopprette et estimat av kildesignalene i mottakeren
ved å behandle nedblandingsproduktet fra de sendte kanaler, og
fig. 14 viser hvordan man skal gjenopprette et estimat av kildesignalene i mottakeren
ved å behandle de sendte kanaler.
n. Definisjoner, bokstavsymboler og variable
Følgende symboler og variabler brukes her i beskrivelsen og patentkravene:
ni. Felleskoding av audiokildesignaler
Først skal BCC (Binaural Cue Coding: binaural køkoding) gjennomgås, nemlig en parametrisk kodeteknikk for flerkanals audio. Deretter skal vises at med samme innsikt som BCC er basert på vil man kunne etablere en algoritme for felles koding av kildesignalene, for å danne et kode scenarium.
A. Binaural Cue Coding ( BCC)
Et BCC skjema [1][2] for flerkanals audiokoding er vist i illustrasjonene. Det innnkommende flerkanals audiosignal blandes ned til en enkelt kanal, og i motsetning til koding og sending av informasjon som gjelder samtlige kanalbølgeformer er det bare det nedblandede signal som kodes (med en konvensjonell monoaudiokoder) og blir sendt ut. I tillegg estimeres perseptuelt motiverte "audiokanalforskj eller" mellom de opprinnelige audiokanaler og sendes også ut til dekoderen. Denne genererer sine utgangskanaler slik at audiokanalforskj ellene tilnærmer de tilsvarende audiokanalforskj eller i de opprinnelige audiosignaler.
Summeringens lokalisering innbefatter at relevant oppfattede audiokanalforskj eller for et høyttalersignalkanalpar blir interkanaltidsforskj ellen (ICTD) henholdsvis interkanalnivåforskjellen (ICLD) og relatert til den oppfattede retning av det som skjer rent lydmessig. Andre romattributter for det lydmessige som presenteres for lytteren, så som en tilsynelatende lydkildebredde og lytteomhylningsvirkningen kan relateres til den såkalte interaurale koherens (IC). For høyttalerpar foran eller bak en lytter vil ofte denne koherens IC ofte være direkte relatert til interkanalkoherensen ICC som således betraktes som det tredje mål for audiokanalforskj ellen i skjemaet BCC. Størrelsene ICTD, ICLD og ICC estimeres i subbånd som en funksjon av tiden, og både spektral og tidsrelatert oppløsning blir i så fall motivert ved lydoppfattelsen.
B. Parametrisk felleskoding av audiokilder
En BCC-dekoder vil kunne frembringe et flerkanals audiosignal med ethvert lydrelatert rombilde ved å syntetisere et monosignal ved regelmessige tidsintervall og bruke en enkelt spesifikk ICTD-, ICLD- og ICC-køen per subbånd og kanalpar. Den relativt gode ytelse et eller flere BCC-skjemaer kan gi for et stort omfang av audio-materiale (se litteraturstedet [1] impliserer at den oppfattede romklanglyd hovedsakelig bestemmes av disse tre størrelser ICTD, ICLD og ICC. Av denne grunn og i motsetning til kravet til helt rene kildesignaler st( n) som blanderinngang vist på fig. 1, kreves i stedet pseudokildesignaler s,. ( ri) med den egenskap at de fører til tilsvarende ICTD, ICLD og ICC i blanderutgangen som i tilfellet for tilførsel av de virkelige kildesignaler til blanderen. Man har tre mål for genereringen av denne størrelse st ( ri): • dersom£,.(«) føres til en blander vil utgangskanalene fra denne få tilnærmet samme romkø (ICLD, ICTD, ICC) som om Stfn) var tilført blanderen. • s,(«) genereres med så lite informasjon som mulig om de opprinnelige kildesignaler s( n) (siden målet er å ha sideinformasjon med liten bitrate).
s,(«) genereres fra det sendte summesignal s( n) slik at det blir innført en minimal mengde signalforvrengning.
For å utlede det foreslåtte skjema betrakter man en stereoblander ( M = 2), og en ytterligere forenkling over det generelle tilfellet er at bare amplitude og forsinkelsespanning (tilsvarende filmteknikkens panorering brukes til blandingen. Dersom de diskrete kildesignaler var tilgjengelige i dekoderen ville et stereosignal måtte blandes som vist på fig. 4, dvs. slik formlene (2) nedenfor tilsier:
I dette tilfellet inneholder scenebeskrivelsesvektoren S( n) bare kilderetninger som bestemmer blandeparametrene:
hvor T er den transponerte av en vektor. Merk at tidsindeksen for blandeparametrene er tatt ut for enkelhets skylde.
Mer hensiktsmessige parametere for styring/kontroll av blanderen er tids- og nivåforskjellen Tt henholdsvis ALhidet disse er relatert til ah bhc, og dtmed ligningene:
hvor Gjer en kildeforsterkningsfaktor med dimensjon desibel (dB).
I det følgende beregnes størrelsene ICTD, ICLD og ICC for stereoblanderutgangen som funksjon av inngangskildesignalene st( n). De oppnådde uttrykk vil gi indikasjon på hvilke kildesignalegenskaper som bestemmer disse tre størrelser, sammen med blanderparametrene, og st( ri) genereres deretter slik at de identifiserte kildesignalegenskaper blir tilnærmet like de tilsvarende egenskaper for de opprinnelige kildesignaler.
B. l ICTD, ICLD og ICC i blanderutgangen
Køene estimeres i subbånd og som funksjon av tiden. I det følgende antas at kildesignalene s^ n) er null i gjennomsnitt og gjensidig uavhengige. Et par subbåndsignaler i blanderutgangen (2) angis henholdsvis med xx( ri) og x2 ( ri). Merk at for å få uttrykkene enklere brukes samme indeks n for både signaler i tidsplanet og subbåndplanet. Det brukes heller ingen subbåndindeks, og den beskrevne analyse/prosessering anvendes uavhengig for hvert enkelt subbånd. Subbåndeffekten i de to blanderutgangssignaler er:
hvor s|.(«) er ett subbåndsignal fra kilden st( n), mens E{.} angir korttidsforventningen, dvs.: hvor K bestemmer lengden av den bevegelige gjennomsnittsverdi. Merk at subbåndeffektverdiene i ligning (6) ovenfor for hvert kildesignal representerer den spektrale omhylning som en funksjon av tiden. ICLD, AL( n) :
For estimering av størrelsene ICTD og ICC bruker man den normaliserte krysskorrelasj onsfunksj on: for estimering. ICC, c( n) beregnes ut fra formelen:
For beregningen av ICTD, T( n) beregnes lokaliteten for den høyeste spiss langs forsinkelsesaksen:
Nå er spørsmålet hvordan man kan beregne den normaliserte krysskorrelasj onsfunksj onen som en funksjon av blanderparametrene. Innarbeides ligning (2) i ligning (8) kan sistnevnte ligning skrives som:
som er ekvivalent med: hvor den normaliserte autokorrelasjonsfunksjon 0(w,e) blir: og Ti = di - c t. Merk at man for å beregne (12) når man har gitt ligning (11) kan anta at signalene er stasjonære i romslig betraktning og uten det betraktede omfang av forsinkelser, dvs.:
Et numerisk eksempel for to kildesignaler illustrerer avhengigheten mellom de tre størrelser ICTD, ICLD og ICC og kildesubbåndeffekten, se fig. 5. Toppen, midtpartiet og bunnen på fig. 5 viser AL( n), T( n) henholdsvis c( n) som en funksjon av forholdet mellom subbåndeffekten og de to kildesignaler, a = E fø2(#i)}/£fø2(#i)}+£fø2(#i)}), for forskjellige blanderparametere (4) ALhAL2, T2og T2. Merk at når man bare har en enkelt kilde vil effekten i subbåndet ( a = 0 eller a = 1), hvilket innebærer at de beregnede størrelser AL( n) og T( n) er like blanderparametrene (AL,, AL2, Th T2).
B. 2 Nødvendig sideinformasjon
ICLD (7) er avhengig av blandeparametrene ( at, bh ch di) og av korttidseffekten i kildenes subbånd: £'^<2>(«)} (6). Den normaliserte krysskorrelasj onsfunksj on Q?( n, d) (12) i subbåndet og som trengs for ICTD (10) og ICC (9) for beregningen vil være avhengig av isfø2 («)}, og i tillegg vil den være avhengig av den normaliserte autokorrelasjonsfunksjon for subbåndet, nemlig ligning (13), for hvert kildesignal. Det maksimale for Q?( n, d) vil ligge innenfor området min;{ Ti} < d < maxilTi}. For en kilde / med blanderparameteren Tx= dk - cx vil det tilsvarende området som kildesignalsubbåndegenskapen ifølge ligning (13) trengs i, være:
Siden ICTD, ICLD og ICC i køen vil være avhengig av egenskapene i subbåndet for kildesignalet, £'{^2(«)} og Oj(«,e) i området (ligning 14) behøver i prinsippet disse kildesignalsubbåndegenskaper sendes som sideinformasjon. Det antas at enhver annen type blander, f.eks. en blander som bruker effektnivåene, en bølgefeltsynteseblander/omhyller etc. vil ha tilsvarende egenskaper, og således vil denne sideinformasjon være brukbar også dersom andre blandere enn den beskrevne brukes. For å redusere mengden av sideinformasjon kunne man lagre et sett forhåndsbestemte autokorrelasj onsfunksj oner i dekoderen og bare sende ut indeksene for valg av dem som passer best til kildesignalegenskapene. En første versjon av den aktuelle algoritme vil da anta at man innenfor området gitt av formelen (14), Oj(«,e) = 1 og således ligning (12) kan beregnes ved bruk av bare subbåndeffektverdiene (6) som sideinformasjon. De data som er vist på fig. 5 er beregnet ved å anta at Oj(«,e) = 1.
For å redusere mengden av sideinformasjon begrenses det relative dynamiske omfang for kildesignalene. Ved hvert tidspunkt velges den kraftigste kilde for hvert subbånd, idet valget baserer seg på signaleffekten. Det ble funnet tilstrekkelig å sette en nedre grense for den tilsvarende subbåndeffekt for samtlige andre kilder, nemlig ved en verdi 24 dB lavere enn den kraftiske subbåndeffekt. Således kan det dynamiske omfang av en kvantiseringsenhet holdes begrenset til 24 dB.
Antar man at kildesignalene er innbyrdes uavhengige kan dekoderen beregne summen av subbåndeffekten for samtlige kilder til E\ s2( ri)}. Følgelig vil det i prinsippet være tilstrekkelig å sende bare subbåndeffektverdiene for M - 1 kilder, idet subbåndeffekten for den resterende kilde kan beregnes lokalt. Når man har fulgt denne idé kan sideinformasjonsraten reduseres noe ved sending av kildenes subbåndeffekt, for kildene med indekser 2 < / < M i forhold til effekten av den første kilde,
Merk at det dynamiske omfang som er begrenset som begrenset ovenfor utføres før ligning (15) utføres. Som et alternativ kan subbåndeffektverdiene normaliseres i forhold til subbåndeffekten av summesignalet, i motsetning til den normalisering som står i forhold til en enkelt kildes subbåndeffekt (ligning 15). For en samplingsfrekvens på 44,1 kHz brukes 20 subbånd og blir for hvert subbånd sendt omkring hvert 12. millisekund: (2 < / < M). 20 subbånd tilsvarer halvparten av spektraloppløsningen for lydsystemet (idet ett subbånd har en bredde på 2 "kritiske båndbredder"). Informasjonseksperimenter tilsier imidlertid at man bare oppnår en mindre forbedring ved bruk av flere subbånd enn 20, f.eks. 40. Antallet subbånd og deres båndbredde velges ut fra tids- og frekvensoppløsningen i lydsystemet. En lavkvalitets implementering av skjemaet krever minst tre subbånd (ved frekvens lav, midlere og høy).
I en særskilt utførelse av oppfinnelsen har subbåndene forskjellig innbyrdes båndbredde, idet de ved lavere frekvenser har mindre båndbredde enn dem ved høyere frekvenser.
De relative effektverdier kvantiseres ved hjelp av et skjema som tilsvarer den ICLD-kvantiseringsenhet som er beskrevet i litteraturstedet [2], hvilket fører til en bitrate på tilnærmet 3(M-1) kb/s. Fig. 6 illustrerer prosessen med genereringen av sideinformasjon, idet denne prosess tilsvarer blokken på fig. 2 merket "generering av sideinformasjon".
Sideinformasjonsraten kan ytterligere reduseres ved analyse av aktiviteten for hvert enkelt kildesignal og bare sende ut den sideinformasjon som er tilordnet kilden dersom denne er aktiv.
I motsetning til sending av subbåndeffektverdiene angitt ovenfor som statisk informasjon kan annen informasjon som representerer den spektrale omhylning av kildesignalene også sendes. Som et eksempel kan parametere for lineær prediktiv koding (LPC) sendes, eller tilsvarende kan andre parametere sendes, så som stigefilterparametere eller parametere for linjespektralpar (LSP). Prosessen med estimering av LPC-parametrene for hvert kildesignal er illustrert på fig. 7.
B. 3 Beregning av størrelsen s. («)
Fig. 8 viser prosessen som brukes til å reetablere kildesignalene, når man har gitt summesignalet (1). Denne prosess er en del av den synteseblokk som er vist på fig. 2. De enkelte kildesignaler gjenopprettes ved skalering av hvert subbånd med summesignalet, med gi( n) og ved å bruke et avkorreleringsfilter med pulsrespons hjfn), hvor<*>indikerer den lineære omhylningsoperand, mens uttrykket i telleren beregnes ut fra sideinformasjonen ved følgende ligning:
Som avkorreleringsfilteret med respons ht( n) kan forskjellige typer filtre brukes, så som komplementære kamfiltre, halvpassfiltre, forsinkelseskretser eller filtre med tilfeldig pulsrespons. Målet med avkorrelasjonsprosessen er å redusere sammenhengen mellom signalene, uten å måtte modifisere hvordan de enkelte bølgeformer oppfattes. Forskjellige avkorrelermgsteknikker vil gi forskjellige såkalte artefakter, og komplementære kamfiltre vil gi en viss fargevirkning, dvs. i overført betydning på lydbildet. Samtlige beskrevne teknikker sprer energien av transientene over tid, hvilket kan føre til fenomener eller artefakter så som ekkoer som kommer i forkant av hovedlydbildet. Når man har det aktuelle potensial for artefaktene bør avkorreleringsteknikkene brukes så lite som mulig, for ikke å gi unødvendig store slike artefakter. Den neste seksjon av beskrivelsen av oppfinnelsen går inn nærmere på teknikker og strategier som krever mindre avkorreleringsbehandling enn den enkle generering av uavhengige signaler av typen st («).
Et alternativt skjema for frembringelse av signalene s,(«) er vist på fig. 9. Først flates signalspekteret for signalet s( n) ut ved hjelp av en beregning av den lineære prediksjonsfeil e( n), og deretter beregnes de tilsvarende allpolfiltre som invers-z-transformasjonen av følgende uttrykk:
Når man har gitt de estimerte LPC-filtrene i koderen, med respons ft. De resulterende allpolfiltre med respons ff representerer den spektrale omhylning av kildesignalene. Dersom annen sideinformasjon enn LPC-parametrene blir sendt trenger disse parametere først en beregning som en funksjon av sideinformasjonen. Som i det andre skjemaet brukes avkorrelasjonsfiltrene med respons h, for å gjøre kildesignalene uavhengige.
IV. Implementeringer som tar hensyn til praktiske begrensninger
I den første del av denne seksjon er gitt et anvendelseseksempel som bruker et BCC-synteseskjema som en blander for stereosignaler eller flerkanalsignaler. Dette er særlig interessant siden et slikt skjema er en del av standarden som kommer opp for ISO/IEC MPEG, idet denne standard gjelder "spatial audio coding". Kildesignalene 5,(«) er egentlig ikke eksplisitt beregnet i dette tilfellet, hvilket fører til redusert beregningskompleksitet, og dette skjema tilbyr også muligheten for bedre lydkvalitet siden man trenger mindre effektiv avkorrelering enn i tilfellet hvor kildesignalene s, («) er beregnet eksplisitt.
Den andre del av denne seksjon går gjennom situasjoner hvor de foreslåtte skjemaer anvendes med enhver blander og hvor man ikke bruker noen avkorrelasjon i det hele tatt. Et slikt skjema vil ha mindre kompleksitet enn et som har prosessering med avkorrelasjon, men det kan ha andre ulemper, og disse vil også bli gjennomgått.
Ideelt skulle man ønske å kunne bruke avkorrelasjonsbehandlingen slik at det genererte signal s,(«) kan betraktes uavhengig, men siden avkorrelasjonsprosessen er problematisk når det gjelder innføring av artifakter vil man i stedet forsøke å bruke så lite avkorrelasjonsprosessering som mulig. Den tredje del av denne seksjon går gjennom hvordan mengden av problematisk avkorrelasjonsbehandling kan reduseres, samtidig med at man opprettholder fordeler som dersom den genererte størrelse s, («) var uavhengig.
A. Implementering uten eksplisitt beregning av størrelsen s. («)
Blandingen utføres direkte på det sendte sumsignal (1) uten eksplisitt beregning av s,(«). Et BCC-synteseskjema brukes for dette formål. I det følgende skal vi betrakte stereotilfellet, men naturligvis vil alle de beskrevne prinsipper kunne anvendes for frembringelse av flerkanals audiosignaler også.
Et stereo-BCC-synteseskjema (eller et parametrisk stereoskjema) anvendt for behandlning av summesignalet (1) er vist på fig. 10. Det vil være ønskelig at skjemaet frembringer et signal som kan oppfattes helt tilsvarende utgangssignalet fra en blander som vist på fig. 4. Dette vil være tilfellet når størrelsene ICTD, ICLD og ICC mellom synteseskjemaets utgangskanaler er tilsvarende som de tilsvarende køer som ligger mellom de enkelte signalkanaler på blanderutgangen (4).
Samme sideinformasjon som for det tidligere beskrevne mer generelle skjema brukes, og da kan dekoderen beregne effektverdiene over kort tid i subbåndet £'{^<2>(«)} for kildene. Når denne størrelse er gitt kan forsterkningsfaktorene gjog g2 på fig. 10 beregnes slik:
slik at utgangssubbåndeffekten og ICLD (7) blir den samme som for blanderen på fig. 4. ICTD T( n) beregnes ut fra ligning (10), og man får da bestemt forsinkelsene Dj og Z^påfig. 10:
ICC c( n) beregnes ut fra ligning (9), slik at man får bestemt avkorrelasjonsbehandlingen på fig. 10. Denne behandling (ICC-syntese) er beskrevet i litteraturstedet [1]. Fordelene med å anvende avkorrelasjonsprosesseringen på blanderutgangskanalene, sammenlignet med anvendelse for frembringelse av en uavhengig størrelse st ( ri) er: • Vanligvis vil antallet kildesignaler M være større enn antallet N audioutgangskanaler, og følgelig vil antallet uavhengige audiokanaler som trenger generering være mindre når de i alt N utgangskanaler avkorreleres, i motsetning til
å måtte avkorrelere de i alt M kildesignaler.
• Ofte korreleres de N audioutgangskanaler (ICC > 0), og mindre avkorrelasjon kan da utføres, i forhold til det som ville vært nødvendig å frembringe uavhengige M eller N kanaler.
Ved at man får en mindre avkorrelasjonsprosess får man forventet en bedre lydkvalitet. Best lydkvalitet kan forventes når blanderparametrene er begrenset, slik at a] + bf = 1, dvs. Gj= 0 dB. I dette tilfellet vil effekten av hver kilde i det sendte summesignal 1 være det samme som effekten i samme kilde i det blandede dekoder-utgangssignal. Dette utgangssignal (fig. 10) er det samme som dersom blanderutgangs-signalet (fig. 4) ble kodet og dekodet av en BCC-koder/dekoder i dette tilfellet. Følgelig kan også en tilsvarende kvalitet forventes.
Dekodere kan ikke bare bestemme retningen som hver kilde kommer til syne fra, men også forsterkningen av hver kilde kan varieres. Denne forsterkning kan økes ved å velge a] + bf > 1 (Gj > 0 dB) og reduseres ved å velge a] + bf < 1 (Gj< 0 dB).
B. Ingen bruk av dekorrelasionsprosessering
Restriksjonen i den tidligere beskrevne teknikk er at blandingen utføres ved hjelp av et BCC synteseskjema. Man kan tenke seg at man ikke bare implementerer ICTD, ICLD og ICC som syntese men i tillegg utfører signalbehandling innenfor selve BCC-syntesen.
Det kan imidlertid være ønskelig at allerede eksisterende blandere og effekt-prosessorer skal kunne brukes, og dette innbefatter også bølgefeltsynteseblandere (ofte kalt "kontoluteenheter"), og for bruk av allerede eksisterende blandere og slike pro-sessorer for effekt blir st ( ri) beregnet eksplisitt og brukt som om disse signaler var de opprinnelige kildesignaler.
Når man tar for seg tilfellet uten avkorrelasjonsprosessering ( hrfn) = 8( n) i ligning (16)) kan man også få god audiokvalitet. Det blir et kompromiss mellom de artefakter som er innført grunnet dekorrelasjonsbehandlingen og de artefakter som skyldes det faktum at kildesignalene st ( ri) er korrelerte. Når man ikke bruker noen slik avkorrelasjonsprosessering vil det resulterende romlydbilde kunne lide av ustabilitet
[1]. Blanderen kan imidlertid selv innføre en viss avkorrelasjon når ekkomaskiner eller andre lydeffektenheter er tatt i bruk, og følgelig har man da mindre behov for en avkorrelasj onsbehandling.
Hvis kildesignalene derimot frembringes uten avkorrelasj onsbehandling blir kildenes nivå avhengig av hvilken retning de har når de blandes, i forhold til de øvrige kilder. Ved å erstatte amplitudepanoreringsalgoritmer i allerede eksisterende blandere med en algoritme for kompensasjon av denne nivåavhengighet vil den negative virkning av lydstyrkeavhengighet av blanderparametrene kunne unngås. En algoritme for nivåkompenseringsamplitude er vist på fig. 11, og denne algoritme kan hjelpe til med å kompensere for kildenivåavhengigheten hos disse parametere i forbindelse med blandingen. Har man gitt forsterkningsfaktorene at og bt for en konvensjonell amplitudepanoreringsalgoritme (så som i fig. 4) kan vektfaktorene ai og bf i henhold til fig. 11 beregnes slik:
Merk at vektfaktorene beregnes slik at utgangssubbåndeffekten blir den samme som om kildesignalene var uavhengige i hvert subbånd.
C. Reduksjon av mengden avkorreleringsprosessering
Som nevnt tidligere er det problematisk å frembringe helt uavhengige kildesignaler s,(«). Nedenfor skal beskrives en strategi for å anvende mindre avkorrelasjonsprosessering, men samtidig effektivt å oppnå en tilsvarende virkning som dersom kildesignalene var uavhengige.
La oss feks. betrakte et bølgefeltsyntesesystem som det som er illustrert på fig. 12. De ønskede virtuelle kildeposisjoner for Sj, s2, ..., s6( M = 6) er indikerte. En strategi for å beregne kildesignalene (16) uten å generere i alt M helt uavhengige signaler vil være: 1. Å generere grupper av kildeindekser som tilsvarer kildene nær hverandre. På fig. 8 kan disse f.eks. være {1}, {2, 5}, {3}, og {4, 6}. 2. Ved hvert tidspunkt i hvert subbånd å velge kildeindeksen for den kraftigste kilde,
Man anvender så avkorreleringsprosessering for kildeindeksdelen av den gruppe som inneholder zmax, dvs. h^ n) = 8( n). 3. For hver annen gruppe velges samme ht( n) innenfor gruppen.
Den beskrevne algoritme modifiserer de sterkeste signalkomponenter minst. I tillegg reduseres antallet forskjellige responser h^ n) som brukes, og dette er klart en fordel siden avkorrelasj onen blir lettere desto færre uavhengige kanaler som trengs generert. Den beskrevne teknikk kan også anvendes når stereo- eller multikanalaudiosignaler er blandet.
V. Skalerbarhet når det gjelder kvalitet og bitrate
Den foreslåtte skjemaet vil bare sende over summen av samtlige kildesignaler, og denne sum kan da kodes ved hjelp av en konvensjonell monoaudiokoder. Når det ikke trengs noen monoreturkompatibilitet og det er nok kapasitet til sending/lagring av mer enn én audiobølgeform kan det foreslåtte skjema skaleres for bruk med mer enn én transmisjonskanal. Dette implementeres ved å frembringe flere summesignaler med forskjellige undersett av de gitte kildesignaler, dvs. at man til hvert undersett av kildesignaler bruker det foreslåtte kodeskjema enkeltvis. Lydkvaliteten er forventet å bli bedre etter hvert som antallet sendte audiokanaler økes, siden færre uavhengige kanaler må genereres ved avkorrelasj onen fra hver sendt kanal (sammenlignet med tilfellet med en enkelt sendt kanal).
VI. Returforenelighet med eksisterende stereo- og surroundlydformater
Man tar følgende audioleveringsscenarium i betraktning: En kunde får maksimal kvalitet i sitt stereo- eller flerekanals surroundsignal (så som ved hjelp av en audio-CD, en DVD, eventuelt fra en musikkdatabase online etc). Målet er å kunne gi kunden fleksibiliteten å lage en skreddersydd blanding av det oppnådde audioinnhold, uten å måtte ta noe kompromiss når det gjelder kvaliteten for avspillingen av stereo/surround etter standardprinsippene.
Dette implementeres ved å levere til kunden (så som en eventuell kjøpevalgmulighet i en butikk eller et nettsted for onlinemusikk) av en bitstrøm av sideinformasjon som tillater beregning av i,, (w) som en funksjon av det gitte stereo-eller flerkanals-audiosignal. Kundens blandealgoritme pådras deretter signalet s, («). I det følgende har man to muligheter for å beregne dette signal, når man har gitte stereo-eller flerkanal-audiosignaler, og disse to muligheter skal her beskrives.
A. Estimering av summen av kildesignaler i mottakeren
Den enkleste måte å produsere det foreslåtte kodeskjema på, med en stereo-eller flerkanals audiosending er illustrert på fig. 13, hvor yt( n) (1 < i < L) er de i alt L kanaler for det gitte audiosignal. Summesignalene fra kildene estimeres ved ned-blanding av de sendte kanaler til en enkelt audiokanal. Nedblandingen utføres ved hjelp av beregningen av summen av kanalene yt( n) (1 < i < L) eller mer avanserte teknikker kan benyttes.
For beste resultat anbefales det at nivået på signalet blir tilpasset før estimeringen (6) E^ 2( n)}, slik at effektforholdet mellom kildesignalene tilnærmes effektforholdet med hvilket kildene er omfattet i det gitte stereo- eller flerkanalsignal. I dette tilfelle blir nedblandingen av de overførte kanaler et forholdsvis godt estimat på summen av kildene (1) (eller en skalert utgave av denne).
En automatisert prosess kan benyttes for å justere nivået for koderens kildesignalinnganger st( n) før beregning av sideinformasjonen. Denne prosess estimerer adaptivt i tid nivået for hvilket hvert kildesignal er omfattet i det gitte stereo-eller flerkanalsignal. Før sideinformasjonsberegningen blir så hvert kildesignal tilpasset i tid og innstilt slik at det blir likt det nivå som kilden har i stereo- eller flerkanalsaudiosignalet.
B. Bruk av de sendte kanaler enkeltvis
Fig. 14 viser en annen implementering av det foreslåtte skjema med signaltransmisjon i stereo eller flerkanalssurround. Her er ikke de sendte kanaler nedblandet, men brukes separat for genereringen av kildesignalet s,(«). Generelt er kildesignalets subbånd beregnet slik:
hvor M>i( n) er vektfaktorer som bestemmer de spesifikke lineære kombinasjoner av subbåndene for de sendte kanaler. To lineære kombinasjoner velges slik at kildesignalet blir så mye avkorrelert som mulig, og følgelig trengs bare en meget liten avkorrelasjon om noen trengs i det hele tatt, hvilket er gunstig, slik det er gjennomgått ovenfor.
VII. Anvendelser
Tidligere i beskrivelsen ble nevnt flere anvendelser for de foreslåtte kodeskjemaer. Nå skal disse oppsummeres, og noen få nye anvendelser skal nevnes.
A. Audiokoding for blanding
Når audiokildesignaler skal lagres eller sendes før de ble blandet til audiosignaler i stereo, for flere kanaler eller ved hjelp av bølgelengdesyntese kan det foreslåtte skjema anvendes. I henhold til den kjente teknikk vil man bruke en monoaudiokoder til hvert enkelt kildesignal og helt uavhengig, hvilket fører til en bitrate som skalerer seg opp med antallet kilder. Det foreslåtte kodeskjema kan imidlertid kode et større antall audiokildesignaler med en enkelt monoaudiokoder pluss sideinformasjon med relativt liten bitrate. Som beskrevet i seksjon V kan audiokvaliteten forbedres ved å bruke mer enn én sendt kanal, dersom lagringskapasiteten er tilgjengelig.
B. Blanding om igjen med metadata
Som beskrevet i seksjon VI kan allerede eksisterende audiosignaler i stereo og flerkanals blandes om igjen ved hjelp av ytterligere sideinformasjon (som her kalles "metadata"). I motsetning til bare å selge optimalisert stereo- og flerkanalsblandet audioinnhold kan metadata selges og da la en bruker blande om igjen vedkommendes stereo- og flerkanalsmusikk. Dette er fordi det er sannsynlig at musikkindustrien ikke så gjerne er villig til å gi bort flersporsopptak uten å få betaling, og det er dessuten for stor risiko for ødeleggelse. Det foreslåtte skjema muliggjør omblanding uten at flersporsopptak gis eller lånes ut.
Videre er det slik at så snart stereo- eller flerkanalsignaler blandes om igjen vil man nok finne en viss kvalitetsreduksjon, hvorved illegal distribusjon av omblandet musikk blir mindre attraktiv.
C. Stereo/ multikanal omvandlet til bølgefeltsyntese
En annen anvendelse av skjemaet som er beskrevet i seksjon VI skal nå gjennomgås. Stereolyd og flerkanalslyd (så som 5.1 surround) som ledsager levende bilder kan utvides til også å gjelde bølgefeltsyntese for gjengivelse ved tilføyelse av sideinformasjon. Som et eksempel kan systemet Dolby AC-3 (audio på DVD) utvides til 5.1 returkompatibilitet ved audiokoding for bølgefeltsyntesesystemer, så som at plater av typen DVD kan avspilles i systemet 5.1 surround på konvensjonelle og tillatte spillere, og bølgefeltsynteselyd på en ny generasjon av spillere som kan håndtere behandlingen av sideinformasjon.
VIII. Subjektive evalueringer
Det ble brukt en sanntids dekoder for de algoritmer som ble foreslått i seksjon IV-A og IV-B, og videre brukte man en FFT-basert STFT filterbank. Et 1024 punkters FFT- og et STFT-vindu med størrelse 768 (med null utfylling) ble likeledes brukt for evalueringene. Spektralkoeffisientene var gruppert sammen slik at hver gruppe kunne representere signaler med en båndbredde på det dobbelte av den ekvivalente rektangulære båndbredde (ERB). Lytting viste at lydkvaliteten ikke ble særlig bedre selv om man valgte en høyere frekvensoppløsning, og en lavere slik oppløsning er gunstig siden den fører til færre parametere å overføre.
For hver kilde kan amplituden/forsinkelsespanoreringen og forsterkningen innstilles separat. Algoritmen ble brukt for koding av flere innspillinger på flere spor, idet man benyttet 12 til 14 spor.
Dekoderen tillater 5.1 surroundblanding ved bruk av en vektorbasert amplitudepanoreringsblander (VBAP). Retning og forsterkning av hvert kildesignal kan da innstilles. Programvaren tillater omkopling "on the-fly" mellom blanding av det kodede kildesignal og blanding av de opprinnelige diskrete kildesignaler.
Tilfeldig lytting vil vanligvis ikke avsløre små forskjeller mellom blandingen av de kodede eller de opprinnelige kildesignaler dersom man bruker en forsterkning G, på null dB for hver kilde. Jo mer kildeforsterkningen varieres desto flere artefakter vil dukke opp. En viss forsterkning henholdsvis dempning av kildene (så som opp til ± 6 dB) høres fremdeles brukbar ut. Et kritisk scenarium er når samtlige kilder blandes til den ene side og bare en enkelt kilde til den andre motsatte side. I dette tilfellet kan lydkvaliteten reduseres, i avhengighet av de spesifikke blande- og kildesignaler.
IX. Konklusjoner
Et kodeskjema for felleskoding av audiokildesignaler, særskilt kanalene som hører til en flersporsinnspilling ble foreslått. Hensikten var ikke å kode kildesignal-bølgeformene ved høy kvalitet, i hvilket tilfelle felleskoding ville ha gitt minimal kode-forsterkning siden lydkildene vanligvis er uavhengige. Hensikten var i stedet at når de kodede kildesignaler ble dannet ville man oppnå et høykvalitets audiosignal. Ved å ta i bruk de statiske egenskaper for kildesignalene kunne egenskaper hos blanderskjemaer og romlytting gi en betydelig kodegevinst ved felles koding av kildesignalene.
Forbedringen i kodegevinst eller -forsterkning skyldes det faktum at det bare er en enkelt audiobølgeform som overføres.
Ytterligere sideinformasjon som representerer de statiske egenskaper av kildesignalene og som er relevante faktorer for bestemmelse av romoppfattelsen av det ferdigblandede audiosignal, blir også sendt ut.
Sideinformasjonstakten eller -raten er omtrent 3 kb/s per kildesignal. Enhver blander kan påtrykkes det kodede kildesignal, feks. av typen stereo, flerkanals eller bølgefeltsynteseblandere.
Det er rett fram og skalere det foreslåtte skjema for høyere bitrate og bedre kvalitet ved å sende mer enn en enkelt audiokanal. Videre kan man foreslå en variasjon av skjemaet for omblanding av det gitte stereo- eller flerkanalsaudiosignal (og til og med endre audioformatet, dvs. fra stereo til multikanal eller bølgeformsyntese.
Anvendelsene for det foreslåtte skjema er mangfoldige. F.eks. kan standarden MPEG-4 utvides med dette skjema for å redusere bitraten når mer enn ett "naturlig audioobjekt" (kildesignal) skal sendes. Det foreslåtte skjema tilbyr også en kompakt representasjon av innholdet for bølgefeltsyntesesystemer. Som nevnt kan allerede eksisterende stereosignaler eller flerkanalssignaler komplementeres med sideinformasjon for å muliggjøre at brukeren blander signalene om igjen etter ønske og behov.
Referanser i form av litteratursteder
[1] C. Faller, Parametric Coding of Spatial Audio, avhandling for doktorgrad, Swiss Federal Institute of Technology, Lausanne (EPFL), 2004, doktoravhandling nr. 3062.
[2] C. Faller og F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans, on Speech and Audio Proe, vol. 11, nr. 6. novemenber 2003.

Claims (22)

1 Fremgangsmåte for å kode flere audiokildesignaler til en audiostrøm,karakterisert ved: • innhenting fra en audiostrøm av minst ett sumsignal som representerer en sum av kildesignaler, • innhenting fra audiostrømmen av statistisk informasjon om ett eller flere kildesignaler, • mottak fra audiostrømmen eller bestemmelse lokalt parametere som beskriver et utgangs audioformat og blandeparametere, • beregning av pseudokildesignaler fra det minst ene sumsignal og den mottatte statistiske informasjon, og • syntetisering av de flere audiokanaler fra pseudokildesignalene ved bruk av en blander på hvilken de mottatte eller lokalt bestemte audioformatparametre og de mottatte eller lokalt bestemte blandeparemetre blir anvendt.
2 Fremgangsmåte for å kode flere audiokildesignaler til en audiostrøm,karakterisert ved: • innhenting fra en audiostrøm av minst ett sumsignal som representerer en sum av kildesignaler, • innhenting fra audiostrømmen av statistisk informasjon om ett eller flere kildesignaler, • mottak fra audiostrømmen eller bestemmelse lokalt parametere som beskriver et utgangs audioformat og kildeblandeparametere, • beregning av utgangsblandeparametere fra den mottatte statistiske informasjon, parametrene beskriver et utgangs audioformat og kildeblandeparametrene, og • syntetisering av de flere audiokanaler fra det minst ene sumsignal basert på de beregnede utgangsblandeparametere.
3 Fremgangsmåte ifølge krav 1 -2, karakterisert vedat den statistiske informasjon representerer spektral omhylning av kildesignalene eller den spektrale omhylning av det ene eller flere audiokildesignaler omfatter nettverksfilterparametere eller linjespektralparametere eller i hvilken den statistiske informasjon representerer en relativ effekt som en funksjon av frekvens og tid av flertallet av kildesignaler.
4 Fremgangsmåte ifølge krav 2, i hvilken trinnet av å beregne utgangs blandeparametere omfatter å beregne styre-signalene av flertallet av audiokanaler og beregne utgangs blandeparametere ved å bruke de beregnede styresignaler av flertallet av audiokanaler.
5 Fremgangsmåte ifølge krav 1, karakterisert vedat pseudostøysignalene blir beregnet i et subbånddomene av en filterbank.
6 Fremgangsmåte ifølge krav 2, karakterisert vedat audiokanalene blir syntetisert i et subbånddomene av en filterbank.
7 Fremgangsmåte ifølge krav 5-6, karakterisert vedat et antall og båndbredder for subbånddomenene blir bestemt i følge en spektral og temporær oppløsning av et menneskelig hørselssystem.
8 Fremgangsmåte ifølge krav 5-7, karakterisert vedat et antall subbånd ligger mellom 3 og 40.
9 Fremgangsmåte ifølge krav 5-8, karakterisert vedat subbåndene i subbånddomenet har forskjellig båndbredde, slik at subbånd ved lavere frekvenser har mindre båndbredde enn subbånd ved høyere frekvenser.
10 Fremgangsmåte ifølge krav 5 til 9, karakterisert vedanvendelse av en korttids Fourier transformasjon (STFT) i en filterbank, og spektralkoeffisienter blir kombinert for å danne grupper av spektralkoeffisienter slik at hver gruppe koeffisienter danner et subbånd.
11 Fremgangsmåte ifølge krav 1 -2, karakterisert vedat den statiske informasjon også omfatter autokorrelasjons-funksj oner.
12 Fremgangsmåte ifølge krav 3, karakterisert vedat de spektrale omhylninger representeres som parametere for lineær prediktiv koding (LPC).
13 Fremgangsmåte ifølge krav 1, karakterisert vedat summesignalet deles opp i flere subbånd og at den statiske informasjon brukes til å bestemme effekten i hvert subbånd for hvert pseudokilde-signal.
14 Fremgangsmåte ifølge krav 1, karakterisert vedat en lineær prediksjonsfeil for summesignalet beregnes, etterfulgt av allpolfiltrering for innføring av den spektrale omhylning bestemt ut fra den statiske informasjon.
15 Fremgangsmåte ifølge krav 13 til 14, karakterisert vedat en avkorrelasjonsteknikk så som allpassfiltrering brukes til å gjøre de utgående pseudokildesignaler uavhengige.
16 Fremgangsmåte ifølge krav 4, karakterisert vedat de beregnede styresignaler er nivåforskjell, tidsforskjell eller koherens for forskjellige frekvenser og øyeblikk.
17 Fremgangsmåte ifølge krav 1, karakterisert vedat blanderen er • en panning-algoritme som kompenserer for kildenivåavhengighet av kildepara-metere, • en bølgefeltsynteseblander, • en binaural blander eller • en 3D audioblander.
18 Apparat for å syntetisere et flertall av audiokanaler, karakterisert vedat apparatet virker til • innhenting fra en audiostrøm minst ett sumsignal som representerer en sum av kildesignaler, • innhenting fra audiostrømmen statistisk informasjon om ett eller flere kildesignaler, • mottak fra audiostrømmen eller bestemme lokalt parametere som beskriver et utgangs audioformat og blandeparametere, • beregning av pseudokildesignaler fra det minst ene sumsignal og den mottatte statistiske informasjon, • syntetisere flertallet av audiokanaler fra pseudokildesignalene ved å bruke en blander, til hvilken de mottatte eller lokalt bestemte audioformatparametere og de mottatte eller lokalt bestemte blandeparametre blir ført.
19 Apparat for å syntetisere et flertall av audiokanaler, karakterisert vedat apparatet virker til • innhenting fra en audiostrøm minst ett sumsignal som representerer en sum av kildesignaler, • innhenting fra audiostrømmen statistisk informasjon om ett eller flere kildesignaler, • mottak fra audiostrømmen eller bestemme lokalt parametere som beskriver et utgangsaudioformat og kildeblandeparametere, • beregning av utgangs blandeparametere fra den mottatte statistiske informasjon, parameterene beskriver et utgangs audioformat og kildeblandeparameterene, • syntetisering av flertallet av audiokanaler fra det minst ene sumsignal basert på de beregnede utgangsblandeparametere.
20 Fremgangsmåte for å kode et flertall av kildesignaler, karakterisert ved• beregning for flertallet av kildesignaler, statistisk informasjon som representerer det ene eller flere kildesignal, og • sending av den beregnede statistiske informasjon som metadata for et audiosignal utledet fra flertallet av kildesignaler.
21 Fremgangsmåte ifølge krav 20, karakterisert vedat den statistiske informasjon omfatter informasjon om en subbåndeffekt av flertallet av kildesignaler, en normalisert subbåndkrysskorrelasj onsfunksj on eller en normalisert subbåndautokorrelasj onsfunksj on.
22 Apparat for å kode et flertall av kildesignaler, karakterisert vedat apparatet virker til • beregning for flertallet av kildesignaler, statistisk informasjon som representerer en spektral omhylning av ett eller flere kildesignaler, og • sending av den beregnede statistiske informasjon som metadata for et audiosignal utledet fra flertallet av kildesignaler.
NO20073892A 2005-02-14 2007-07-24 Parametrisk felleskoding av audiokilder NO338701B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05101055A EP1691348A1 (en) 2005-02-14 2005-02-14 Parametric joint-coding of audio sources
PCT/EP2006/050904 WO2006084916A2 (en) 2005-02-14 2006-02-13 Parametric joint-coding of audio sources

Publications (2)

Publication Number Publication Date
NO20073892L NO20073892L (no) 2007-11-14
NO338701B1 true NO338701B1 (no) 2016-10-03

Family

ID=34938725

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20073892A NO338701B1 (no) 2005-02-14 2007-07-24 Parametrisk felleskoding av audiokilder

Country Status (18)

Country Link
US (12) US8355509B2 (no)
EP (4) EP1691348A1 (no)
JP (2) JP5179881B2 (no)
KR (1) KR100924577B1 (no)
CN (2) CN102123341B (no)
AT (1) ATE531035T1 (no)
AU (3) AU2006212191B2 (no)
BR (5) BR122018072504B1 (no)
CA (2) CA2707761C (no)
ES (2) ES2374434T3 (no)
HK (2) HK1107723A1 (no)
IL (1) IL185192A (no)
MX (1) MX2007009559A (no)
NO (1) NO338701B1 (no)
PL (1) PL1844465T3 (no)
RU (1) RU2376654C2 (no)
TR (1) TR201811059T4 (no)
WO (1) WO2006084916A2 (no)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
WO2006103586A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Audio encoding and decoding
WO2007004831A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
EP1989704B1 (en) 2006-02-03 2013-10-16 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
EP3985873A1 (en) * 2006-07-04 2022-04-20 Dolby International AB Filter system comprising a filter converter and a filter compressor and method for operating the filter system
RU2407227C2 (ru) * 2006-07-07 2010-12-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция для объединения множества параметрически кодированных аудиоисточников
CN101652810B (zh) 2006-09-29 2012-04-11 Lg电子株式会社 用于处理混合信号的装置及其方法
RU2420026C2 (ru) * 2006-09-29 2011-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования аудиосигналов на основе объектов
US8504376B2 (en) 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
KR100891665B1 (ko) 2006-10-13 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
PT2372701E (pt) 2006-10-16 2014-03-20 Dolby Int Ab Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
EP2437257B1 (en) * 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
EP2092516A4 (en) * 2006-11-15 2010-01-13 Lg Electronics Inc METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING
CA2645863C (en) * 2006-11-24 2013-01-08 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
EP2092409B1 (en) * 2006-12-01 2019-01-30 LG Electronics Inc. Apparatus and method for inputting a command, method for displaying user interface of media signal, and apparatus for implementing the same, apparatus for processing mix signal and method thereof
JP5209637B2 (ja) * 2006-12-07 2013-06-12 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
CN101632117A (zh) 2006-12-07 2010-01-20 Lg电子株式会社 用于解码音频信号的方法和装置
JP2010516077A (ja) * 2007-01-05 2010-05-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
CN101542595B (zh) * 2007-02-14 2016-04-13 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
WO2008100098A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2119306A4 (en) * 2007-03-01 2012-04-25 Jerry Mahabub SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
CN101675472B (zh) 2007-03-09 2012-06-20 Lg电子株式会社 用于处理音频信号的方法和装置
CN101636919B (zh) 2007-03-16 2013-10-30 Lg电子株式会社 用于处理音频信号的方法和装置
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
CA2684975C (en) 2007-04-26 2016-08-02 Dolby Sweden Ab Apparatus and method for synthesizing an output signal
EP2158587A4 (en) * 2007-06-08 2010-06-02 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL
CN101689372B (zh) 2007-06-27 2013-05-01 日本电气株式会社 信号分析装置、信号控制装置及其系统、方法
KR20100022989A (ko) 2007-06-27 2010-03-03 닛본 덴끼 가부시끼가이샤 다지점 접속 장치, 신호 분석 및 제어 장치와, 그 방법 및 기록 매체
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
JP2010538572A (ja) 2007-09-06 2010-12-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及び装置
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2128856A4 (en) * 2007-10-16 2011-11-02 Panasonic Corp DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD
CN101836250B (zh) * 2007-11-21 2012-11-28 Lg电子株式会社 用于处理信号的方法及装置
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
CN101547265B (zh) * 2008-10-20 2014-07-30 华为终端有限公司 一种3d音频会议的信号处理方法、设备以及系统
WO2010045869A1 (zh) * 2008-10-20 2010-04-29 华为终端有限公司 一种3d音频信号处理的方法、系统和装置
ES2963744T3 (es) * 2008-10-29 2024-04-01 Dolby Int Ab Protección de recorte de señal usando metadatos de ganancia de audio preexistentes
KR101137360B1 (ko) * 2009-01-28 2012-04-19 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
BR122019023877B1 (pt) 2009-03-17 2021-08-17 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
WO2011000409A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Positional disambiguation in spatial audio
US9042559B2 (en) 2010-01-06 2015-05-26 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
EP2485213A1 (en) 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
EP2759126B8 (en) 2011-09-18 2021-03-31 Touchtunes Music Corporation Digital jukebox device with karaoke and/or photo booth features, and associated methods
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
CN112185400A (zh) 2012-05-18 2021-01-05 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN102695116B (zh) * 2012-05-30 2015-06-03 蒋憧 一种声音采集、处理和再现方法
MX343564B (es) 2012-09-12 2016-11-09 Fraunhofer Ges Forschung Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d.
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9426599B2 (en) * 2012-11-30 2016-08-23 Dts, Inc. Method and apparatus for personalized audio virtualization
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
KR20230144652A (ko) * 2013-03-28 2023-10-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
WO2014175076A1 (ja) * 2013-04-26 2014-10-30 ソニー株式会社 音声処理装置および音声処理システム
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP3028273B1 (en) 2013-07-31 2019-09-11 Dolby Laboratories Licensing Corporation Processing spatially diffuse or large audio objects
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN106104679B (zh) 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
RU2571921C2 (ru) * 2014-04-08 2015-12-27 Общество с ограниченной ответственностью "МедиаНадзор" Способ фильтрации бинауральных воздействий в аудиопотоках
CN104036788B (zh) * 2014-05-29 2016-10-05 北京音之邦文化科技有限公司 音频文件的音质识别方法及装置
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
CN105895086B (zh) 2014-12-11 2021-01-12 杜比实验室特许公司 元数据保留的音频对象聚类
CN106033671B (zh) 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN107771346B (zh) * 2015-06-17 2021-09-21 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
EP3353784A4 (en) * 2015-09-25 2019-05-22 VoiceAge Corporation METHOD AND SYSTEM FOR CODING THE LEFT AND RIGHT CHANNELS OF A STEREOTONE SIGNAL WITH SELECTION BETWEEN TWO OR FOUR MODEL MODELS PER BIT HOLIDAY HOUSEHOLD
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10424307B2 (en) * 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
JP6787183B2 (ja) * 2017-02-28 2020-11-18 ヤマハ株式会社 音制御装置及び方法
US10893373B2 (en) * 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
AU2020253755A1 (en) 2019-04-05 2021-11-04 Tls Corp. Distributed audio mixing
CN113096672B (zh) * 2021-03-24 2022-06-14 武汉大学 一种应用于低码率下的多音频对象编解码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998020709A1 (en) * 1996-11-07 1998-05-14 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPH0650439B2 (ja) * 1986-07-17 1994-06-29 日本電気株式会社 マルチパルス駆動形音声符号化器
JP2659605B2 (ja) * 1990-04-23 1997-09-30 三菱電機株式会社 音声復号化装置及び音声符号化・復号化装置
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5712437A (en) * 1995-02-13 1998-01-27 Yamaha Corporation Audio signal processor selectively deriving harmony part from polyphonic parts
JP2766466B2 (ja) * 1995-08-02 1998-06-18 株式会社東芝 オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
DE19632734A1 (de) * 1996-08-14 1998-02-19 Thomson Brandt Gmbh Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6005948A (en) * 1997-03-21 1999-12-21 Sony Corporation Audio channel mixing
JPH11109995A (ja) * 1997-10-01 1999-04-23 Victor Co Of Japan Ltd 音響信号符号化器
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6188987B1 (en) * 1998-11-17 2001-02-13 Dolby Laboratories Licensing Corporation Providing auxiliary information with frame-based encoded audio information
EP2391146A3 (en) * 1999-04-07 2011-12-14 Dolby Laboratories Licensing Corporation Lossless encoding and decoding methods and apparatus for multichannel signals
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
TW510143B (en) * 1999-12-03 2002-11-11 Dolby Lab Licensing Corp Method for deriving at least three audio signals from two input audio signals
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7212872B1 (en) * 2000-05-10 2007-05-01 Dts, Inc. Discrete multichannel audio with a backward compatible mix
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
AU2003219426A1 (en) * 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
BRPI0304541B1 (pt) * 2002-04-22 2017-07-04 Koninklijke Philips N. V. Method and arrangement for synthesizing a first and a second output sign from an input sign, and, device for providing a decoded audio signal
JP4013822B2 (ja) 2002-06-17 2007-11-28 ヤマハ株式会社 ミキサ装置およびミキサプログラム
US7447629B2 (en) * 2002-07-12 2008-11-04 Koninklijke Philips Electronics N.V. Audio coding
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
CN100594744C (zh) * 2002-09-23 2010-03-17 皇家飞利浦电子股份有限公司 声音信号的生成
WO2004036955A1 (en) * 2002-10-15 2004-04-29 Electronics And Telecommunications Research Institute Method for generating and consuming 3d audio scene with extended spatiality of sound source
US7243064B2 (en) * 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
US20040117186A1 (en) * 2002-12-13 2004-06-17 Bhiksha Ramakrishnan Multi-channel transcription-based speaker separation
US20040176950A1 (en) * 2003-03-04 2004-09-09 Docomo Communications Laboratories Usa, Inc. Methods and apparatuses for variable dimension vector quantization
KR20060090984A (ko) * 2003-09-29 2006-08-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호들을 엔코딩하는 방법 및 장치
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
DE602005022235D1 (de) * 2004-05-19 2010-08-19 Panasonic Corp Audiosignalkodierer und Audiosignaldekodierer
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US20060009274A1 (en) * 2004-07-08 2006-01-12 Richard Finocchio Method of playing a game of roulette
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
BRPI0514998A (pt) * 2004-08-26 2008-07-01 Matsushita Electric Ind Co Ltd equipamento de codificação de sinal de canal múltiplo e equipamento de decodificação de sinal de canal múltiplo
US20060048226A1 (en) * 2004-08-31 2006-03-02 Rits Maarten E Dynamic security policy enforcement
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
CN101124740B (zh) * 2005-02-23 2012-05-30 艾利森电话股份有限公司 多声道音频信号编码和解码的方法和装置和音频传送系统
JP2008542807A (ja) * 2005-05-25 2008-11-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネル信号の予測符号化
WO2007004831A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
JP5209637B2 (ja) * 2006-12-07 2013-06-12 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
US8332229B2 (en) * 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
US9589571B2 (en) * 2012-07-19 2017-03-07 Dolby Laboratories Licensing Corporation Method and device for improving the rendering of multi-channel audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998020709A1 (en) * 1996-11-07 1998-05-14 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same

Also Published As

Publication number Publication date
JP5179881B2 (ja) 2013-04-10
US20070291951A1 (en) 2007-12-20
US10657975B2 (en) 2020-05-19
CA2707761C (en) 2014-04-29
HK1107723A1 (en) 2008-07-11
BR122018072504B1 (pt) 2019-07-09
PL1844465T3 (pl) 2012-03-30
US20220392467A1 (en) 2022-12-08
KR20070107698A (ko) 2007-11-07
BR122018072501B1 (pt) 2019-07-09
CN101133441A (zh) 2008-02-27
BR122018072505B1 (pt) 2019-07-16
EP2320414A1 (en) 2011-05-11
CN102123341A (zh) 2011-07-13
US10643629B2 (en) 2020-05-05
EP1844465A2 (en) 2007-10-17
US11621006B2 (en) 2023-04-04
BRPI0607166B1 (pt) 2019-06-25
AU2009200407B2 (en) 2010-11-25
EP1995721A1 (en) 2008-11-26
US20170103763A9 (en) 2017-04-13
US10643628B2 (en) 2020-05-05
CN101133441B (zh) 2011-05-25
NO20073892L (no) 2007-11-14
ES2682073T3 (es) 2018-09-18
EP1691348A1 (en) 2006-08-16
US11621007B2 (en) 2023-04-04
AU2006212191B2 (en) 2009-01-15
US11495239B2 (en) 2022-11-08
TR201811059T4 (tr) 2018-08-27
AU2010236053B2 (en) 2012-10-18
JP5638037B2 (ja) 2014-12-10
CA2707761A1 (en) 2006-08-17
US20190066706A1 (en) 2019-02-28
BR122018072508B1 (pt) 2019-07-16
ATE531035T1 (de) 2011-11-15
RU2007134215A (ru) 2009-03-20
US20190066705A1 (en) 2019-02-28
EP1844465B1 (en) 2011-10-26
IL185192A (en) 2014-02-27
CN102123341B (zh) 2013-07-03
AU2006212191A1 (en) 2006-08-17
US20200234721A1 (en) 2020-07-23
KR100924577B1 (ko) 2009-11-02
AU2010236053A1 (en) 2010-11-18
CA2597746C (en) 2016-02-16
BRPI0607166A2 (pt) 2009-08-11
CA2597746A1 (en) 2006-08-17
US8355509B2 (en) 2013-01-15
AU2009200407A1 (en) 2009-02-26
EP2320414B1 (en) 2018-05-02
US20120314879A1 (en) 2012-12-13
IL185192A0 (en) 2008-01-06
RU2376654C2 (ru) 2009-12-20
US20170055095A1 (en) 2017-02-23
ES2374434T3 (es) 2012-02-16
US9668078B2 (en) 2017-05-30
JP2008530603A (ja) 2008-08-07
US20220392468A1 (en) 2022-12-08
MX2007009559A (es) 2007-12-10
US20190066703A1 (en) 2019-02-28
WO2006084916A2 (en) 2006-08-17
HK1159392A1 (en) 2012-07-27
JP2012234192A (ja) 2012-11-29
US10650835B2 (en) 2020-05-12
US20220392466A1 (en) 2022-12-08
US20190066704A1 (en) 2019-02-28
US20220392469A1 (en) 2022-12-08
US11621005B2 (en) 2023-04-04
US11682407B2 (en) 2023-06-20
US10339942B2 (en) 2019-07-02
WO2006084916A3 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
NO338701B1 (no) Parametrisk felleskoding av audiokilder
JP5185340B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
GB2485979A (en) Spatial audio coding