NO341259B1 - Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder - Google Patents

Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder Download PDF

Info

Publication number
NO341259B1
NO341259B1 NO20090515A NO20090515A NO341259B1 NO 341259 B1 NO341259 B1 NO 341259B1 NO 20090515 A NO20090515 A NO 20090515A NO 20090515 A NO20090515 A NO 20090515A NO 341259 B1 NO341259 B1 NO 341259B1
Authority
NO
Norway
Prior art keywords
channel
original
downmix
parameter
channels
Prior art date
Application number
NO20090515A
Other languages
English (en)
Other versions
NO20090515L (no
Inventor
Jürgen Herre
Johannes Hilpert
Karsten Linzmeier
Oliver Hellmuth
Thorsten Kastner
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of NO20090515L publication Critical patent/NO20090515L/no
Publication of NO341259B1 publication Critical patent/NO341259B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Description

Oppfinnelsens område
Den foreliggende oppfinnelse vedrører flerkanals audiokoding og i særdeleshet et konsept av å kombinere parametrisk kodede audiostrømmer på en fleksibel og effektiv måte.
Oppfinnelsens bakgrunn og kjent teknikk
Den nylige utvikling innen området audiokoding har frembrakt mange parametriske teknikker for audiokoding for forbundet å kode et flerkanals audiosignal (for eksempel 5.1 kanaler) signal inn til én (eller flere) nedblandingskanaler pluss en sideinformasjonsstrøm. Generelt har sideinformasjonsstrømmen parametre som vedrører egenskaper fra de opprinnelige kanaler av flerkanalssignalet enten med hensyn til andre opprinnelige kanaler fra flerkanalssignalet eller med hensyn til nedblandingskanalen. Den enkelte definisjon av parametre fra referansekanalen, som disse parametre står i forhold til, avhenger av den spesifikke realisering. Noen av teknikkene som er kjent innen teknikken er "binaural styresignalkoding" (engelsk: binaural cue coding) (BCC) og "romlig audiokoding" (engelsk: spatial audio coding) og "parametrisk stereo".
Det henvises hermed til publikasjoner som angår disse enkeltutførelser for detaljer. Binaural styresignalkoding er foreksempel forklart i: C. Faller og F. Baumgarte: "Efficient representation of spatial audio using perceptual parametrization" (Effektiv representasjon av romlig audio ved å bruke persepsjonsparametrisering) IEEE WASPAA, Mohonk, NY, USA, oktober 2001, F. Baumgarte og C. Faller: "Estimation of auditory spatial cues for binaural cue coding"
(Å anslå hørselsmessige, romlige styresignaler for binaural styresignalkoding)
ICASSP, Orlando, FL, USA, mai 2002 , C. Faller og F. Baumgarte: "Binaural cue coding: a novel and efficient representation of spatial audio" (Binaural styresignalkoding: en hittil ukjent og effektiv representasjon av romlig audio) ICASSP, Orlando, FL, USA, mai 2002, C. Faller og F. Baumgarte: "Binaural cue coding applied to audio compression with flexible rendering" (Binaural styresignalkoding benyttet til audiokomprimering med fleksibel gjengivelse) AES 113. samling, Los Angeles, Forhåndstrykk 5686, oktober 2002, C. Faller og F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and applications" (Binaural styresignalkoding - del 2: planer og anvendelser) IEEE Trans, on Speech and Audio Proe, bind 11, nr. 6, nov. 2003, og J. Herre, C. Faller et al., "Spatial Audio Coding: Nextgeneration efficient and compatible coding of multi-channel audio", Audio Engineering Society Convention Paper, (romlig adiokoding: neste generasjon effektiv og kompatibel koding multikanals audio) Okt. 28, 2004, San Francisco, CA, USA.
US 2005062843 beskriver et videokonferansesystem med flere konferansestasjoner. Hver konferansestasjon har lydutgangsapparater, lyd og video komprimeringsmoduler for å motta video fra videokilden og lyd fra lydopptakskretser og for å overføre komprimert lyd og video via et nettverk. Hver stasjon komprimerer lyd fra sin lydopptakskrets, og når denne lyden har amplitude over en terskel, sendes komprimert lyd til en server. Serveren kombinerer de komprimerte lydstrømmene i én enkelt sammensatt strøm uten å dekomprimere og blande lydstrømmene, og sender denne potensielt flerkanals strømmen til hver konferansestasjon. Hver konferansestasjon har også en lydblandingsmodul for mottak av en kompositt komprimert lydstrøm via nettverksgrensesnittapparatet fra serveren, for dekomprimering og blanding av kanaler av interesse i lydstrømmene, og for å gi lyd til lydutgangsapparatet.
Mens binaural styresignalkoding benytter flere opprinnelige kanaler, er parametrisk stereo en beslektet teknikk for den parametriske koding av et tokanals stereosignal som fører til et sendt monosignal og parametersideinformasjon, som for eksempel redegjort for i de følgende publikasjoner: J. Breebaart, S. van de Par, A. Kohlrausch og E. Schuijers: "High-Quality Parametric Spatial Audio Coding at Low Bitrates" (Høykvalitets parametrisk, romlig audiokoding ved lave bithastigheter) AES 116. samling, Berlin, forhåndstrykk 6072, mai 2004, E. Schuijers, J. Breebaart, H. Purnhagen og J. Engdegard: "Low Complexity Parametric Stereo Coding", (Lavkompleksitets parametrisk stererokoding) AES 116. samling, Berlin, forhåndstrykk 6073, mai 2004.
Andre teknikker er basert på å multiplekse vilkårlige antall av audiokilder eller objekter til en enkelt audiooverføringskanal. Planer basert på multipleksing blir for eksempel innført som "fleksibel gjengivelse" i publikasjoner som angår BCC (binaural styresignalkoding) eller mer nylig av en plan kalt "forbundet kildekoding" (engelsk: joint source coding) (JSC). Publikasjoner som vedrører er for eksempel: C. Faller: "Parametric Joint Coding of Audio Sources" (Parametrisk, forbundet koding av audiokilder) Convention Paper 6752, 120. AES samling, Paris, mai 2006. Liknende de parametriske stereo- og binaurale styringssignalkodingsplaner, er disse teknikker ment å kode flere opprinnelige audioobj ekter (kanaler) for sending av færre nedblandingskanaler. Ved i tillegg å utlede objektbaserte parametre for hver inngangskanal, som kan bli kodet ved en veldig lav datahastighet og som også blir sendt til en mottaker, kan disse objekter bli atskilt ved mottakersiden og gjengitt (blandet) til et visst antall av utgangsutstyr, som for eksempel hodetelefoner, tokanals stereohøyttalere eller flerkanals høyttaleroppsett. Denne fremgangsmåte muliggjør nivåjustering og videreformidling (engelsk: panning) av de forskjellige audioobjekter til forskjellige lokaliteter i oppsettet for gjengivelse, det vil si ved mottakersiden.
Slike teknikker virker grunnleggende som M-k-N sender, der M er antallet av audioobj ekter ved inngangen, k er antallet av sendte nedblandingskanaler, typisk er k < 2. N er antallet av audiokanaler ved gjengiverens utgang, det vil for eksempel si antallet av høyttalere. Det betyr at N = 2 for en stereogjengiver eller N = 6 for et 5.1 flerkanals høyttaleroppsett. Uttrykt i kompresjonseffektivitet er typiske verdier for eksempel 64 kb/s eller mindre for en oppfattelsesmessig kodet nedblandingskanal (som består av k audiokanaler) og omtrent 3 kb/s for objektparametre pr. sendt audioobj ekt.
Scenarier for anvendelse av teknikken over er for eksempel koding av romlige audiolokaliteter som vedrører produksjoner av kinofilm for å gjøre en romlig gjengivelse av lyd i et hjemmeteatersystem mulig. Vanlige eksempler er de vidt kjente 5.1 og 7.1 spor for omgivende lyd på filmmedia, slike som DVD og dets like. Filmproduksjoner blir mer og mer kompliserte med hensyn til lydlokalitetene som er tenkt å sørge for en romlig lytteopplevelse og dermed må bli blandet med stor omtanke. Forskjellige lydingeniører kan være beskikket til blandingen av forskjellige omgivelseskilder eller lydeffekter og derfor blir sending av parametrisk kodet flerkanalsforløp mellom de individuelle lydingeniører ønskelig, for å transportere audiostrømmene fra hver enkelt lydingeniør effektivt.
Et annet scenario for anvendelse av en slik teknologi er telekonferanse med flere talere ved samme ende av en punkt til punkt forbindelse. For å spare båndbredde arbeider de fleste oppsett av telekonferanse med monofonisk sending. Ved å bruke for eksempel forbundet kildekoding eller én av de andre teknikker for flerkanals koding for sending, kan videreformidling og nivåinnretning av de forskjellige talere ved den mottakende ende (hver ende) bli oppnådd og dermed kan oppfattbarheten og balansen av høyttalerne bli forbedret ved å spandere en marginalt øket bithastighet sammenliknet med et monofonisk system. Fordelen av øket oppfattbarhet blir særlig tydelig i det spesielle tilfelle av å tilordne hver enkelt deltaker av konferansen til en enkelt kanal (og dermed høyttaler) fra et flerkanals høyttaleroppsett ved en mottakende ende. Imidlertid er dette et spesielt tilfelle. Generelt vil antallet av deltakere ikke passe med antallet av høyttalere ved den mottakende ende. Imidlertid er det ved bruk av det eksisterende høyttaleroppsett mulig å gjengi signalet forbundet med hver deltaker slik at det fremstår å opprinne fra hvilken som helst ønsket posisjon. Det vil si at de individuelle deltakere blir ikke bare gjenkjent ved sine forskjellig stemmer, men også ved lokaliseringen av audiokilden forbundet med den talende deltaker.
Mens teknikkens tilstand realiserer konsepter om hvordan effektivt kode flerkanals- eller audioobj ekter, mangler alle de foreliggende kjente teknikker muligheten til å kombinere to eller flere av disse sendte audiostrømmer effektivt for å utlede en utgangsstrøm (et utgangssignal) som er en representasjon av alle inngangsaudiostrømmene (inngangsaudiosignalene).
Problemet oppstår for eksempel når et scenario for telekonferanse med flere enn to lokaliteter blir vurdert, hver lokalitet med én eller flere høyttalere. Da trengs en mellomliggende anordning for å motta audioinngangssignalene fra de enkelte kilder og å fremstille et audioutgangssignal for hver telekonferanselokalitet som bare har informasjonen fra de gjenværende telekonferanse lokaliteter. Det betyr at en mellomliggende anordning må fremstille et utgangssignal som er utledet fra en kombinasjon av to eller flere audioinngangssignaler og som gjør en gjengivelse av de enkelte audiokanaler eller audioobjekter fra de to eller flere inngangssignaler mulig.
Et liknende scenario kan inntreffe når to audioingeniører i en kinofilmproduksjon ønsker å kombinere deres romlige audiosignaler for å kontrollere lytteinntrykket frembragt av begge signaler. Da kan det være ønskelig å direkte kombinere to kodete flerkanalssignaler for å kontrollere det kombinerte lytteinntrykket. Det betyr at et kombinert signal trenger å være slik at det likner alle audioobj ektene (kildene) fra de to audioingeniørene.
Imidlertid er ifølge kjent teknikk en slik kombinasjon bare mulig ved dekoding av audiosignalene (audiostrømmene). Da kan de dekodete audiosignaler igjen bli gjenkodet ved flerkanalskodere i kjent teknikk, for å fremstille et kombinert signal hvor alle de opprinnelige audiokanaler eller audioobjekter er riktig representert.
Dette har ulempen av høy beregningsmessig kompleksitet, dermed ødes en stor mengde av energi og gjør det noen ganger til og med ikke mulig å benytte konseptet, særlig i sanntidsscenarier. Videre kan en kombinasjon av på hverandre følgende audiodekoding og -gjenkoding forårsake en betydelig forsinkelse på grunn av de to behandlingstrinn, som er uakseptabelt for visse anvendelser, slik som telekonferanse og telekommunikasj on.
Sammendrag av oppfinnelsen
Det er formålet med den foreliggende oppfinnelse å sørge for et konsept for effektivt å kombinere flere parametrisk kodete audiosignaler.
Ifølge et første synspunkt av den foreliggende oppfinnelse, blir dette formålet oppnådd ved en audiosignalgenerator for å generere et audioutgangssignal, audiosignalgeneratoren omfatter: en audiosignalmottaker for å motta et første audiosignal omfattende en første nedblandingskanal med informasjon om to eller flere første opprinnelige kanaler, og omfattende en opprinnelig parameter forbundet med én av de første opprinnelige kanaler for å beskrive en egenskap ved én av de første opprinnelige kanaler med hensyn til en referansekanal; og et andre audiosignal omfattende en andre nedblandingskanal med informasjon om minst én andre opprinnelig kanal; en kanalkombinerer for å utlede en kombinert nedblandingskanal ved å kombinere den første nedblandingskanal og den andre nedblandingskanal; en parameterkalkulator for å utlede en første kombinert parameter for å beskrive egenskapen av én av de første opprinnelige kanaler med hensyn til en felles referansekanal, og en andre kombinert parameter som beskriver egenskapen av én annen av de første opprinnelige kanaler eller av den minst ene andre opprinnelige kanal med hensyn til den felles referansekanal; og et utgangsgrensesnitt for å gi ut audioutgangssignalet omfattende den kombinerte nedblandingskanal, den første og den andre kombinerte parameter.
Ifølge et andre synspunkt av den foreliggende oppfinnelse oppnås dette formål ved en fremgangsmåte for å fremstille et audioutgangssignal, fremgangsmåten omfatter: å motta et første audiosignal omfattende en første nedblandingskanal med informasjon om to eller flere første opprinnelige kanaler, og omfattende en opprinnelig parameter forbundet med én av de første opprinnelige kanaler for å beskrive en egenskap ved én av de første opprinnelige kanaler med hensyn til en referansekanal og et andre audiosignal omfattende en andre nedblandingskanal med informasjon om minst én andre opprinnelig kanal; å utlede en kombinert nedblandingskanal ved å kombinere den første nedblandingskanal og den andre nedblandingskanal; å utlede en første kombinert parameter for å beskrive egenskapen av én av de første opprinnelige kanaler med hensyn til en felles referansekanal og en andre kombinert parameter for å beskrive egenskapen av én annen av de første opprinnelige kanaler eller av den minst ene andre opprinnelige kanal med hensyn til en felles referansekanal; og å gi ut audioutgangssignalet omfattende den kombinerte nedblandingskanal og den første og den andre kombinerte parameter.
Ifølge et tredje synspunkt av den foreliggende oppfinnelse blir dette formål oppnådd ved en representasjon av tre eller flere audiokanaler omfattende: en kombinert nedblandingskanal som er en kombinasjon av en første nedblandingskanal med informasjon om minst to første opprinnelige kanaler og en andre nedblandingskanal med informasjon om minst én andre opprinnelig kanal; en første parameter som beskriver en egenskap av én av de minst to første opprinnelige kanaler med hensyn til en referansekanal; og en andre parameter for å beskrive egenskapen av en annen kanal av de første opprinnelige kanaler eller egenskapen av den minst ene andre opprinnelige kanal med hensyn til referansekanalen.
Ifølge et fjerde synspunkt av den foreliggende oppfinnelse blir dette formål oppnådd ved et datamaskinprogram for å realisere en fremgangsmåte for å fremstille et audioutgangssignal, fremgangsmåten omfatter: å motta et første audiosignal som omfatter en første nedblandingskanal med informasjon om to eller flere første opprinnelige kanaler, og omfattende en opprinnelig parameter forbundet med én av de første opprinnelige kanaler for å beskrive en egenskap av én av de første opprinnelige kanaler med hensyn til en referansekanal og et andre audiosignal omfattende en andre nedblandingskanal med informasjon om minst én andre opprinnelig kanal; å utlede en kombinert nedblandingskanal ved å kombinere den første nedblandingskanal og den andre nedblandingskanal; å utlede en første kombinert parameter for å beskrive egenskapen av én av de første opprinnelige kanaler med hensyn til en felles referansekanal og en andre kombinert parameter for å beskrive egenskapen av én annen av de første opprinnelige kanaler eller av den minst ene andre opprinnelige kanal med hensyn til en felles referansekanal; og å gi ut audioutgangssignalet omfattende den kombinerte nedblandingskanal og den første og den andre kombinerte parameter.
Ifølge et femte synspunkt av den foreliggende oppfinnelse blir dette formål oppnådd ved et videokonferansesystem med en audiosignalgenerator for å generere et audioutgangssignal, omfattende: en audiosignalmottaker for å motta et første audiosignal omfattende en første nedblandingskanal med informasjon om to eller flere første opprinnelige kanaler, og omfattende en opprinnelig parameter forbundet med én av de første opprinnelige kanaler for å beskrive en egenskap av én av de første opprinnelige kanaler med hensyn til en referansekanal; og et andre audiosignal omfattende en andre nedblandingskanal med informasjon om minst én andre opprinnelig kanal; en kanalkombinerer for å utlede en kombinert nedblandingskanal ved å kombinere den første nedblandingskanal og den andre nedblandingskanal; en parameterkalkulator for å utlede en første kombinert parameter for å beskrive egenskapen av én av de første opprinnelige kanaler med hensyn til en felles referansekanal, og en andre kombinert parameter for å beskrive egenskapen av én annen av de første opprinnelige kanaler eller av den minst ene andre opprinnelige kanal med hensyn til den felles referansekanal; og et utgangsgrensesnitt for å gi ut audioutgangssignalet omfattende den kombinerte nedblandingskanal, den første og den andre kombinerte parameter.
Den foreliggende oppfinnelse er basert på oppdagelsen av at flere parametrisk kodede audiosignaler effektivt kan bli kombinert ved bruk av en audiosignalgenerator eller audiosignalkombinerer, som fremstiller et audioutgangssignal ved å kombinere nedblandingskanalene og de forbundne parametre fra audioinngangssignaler direkte innenfor parameterdomenet, det vil si uten å rekonstruere eller dekode de enkelte audioinngangssignaler forut for genereringen av audioutgangssignalet. For å være mer spesifikk blir dette oppnådd ved direkte blanding av de forbundne nedblandingskanaler fra de individuelle inngangssignaler, for eksempel ved å summere eller å danne en lineær kombinasjon av de samme. Det er en hovedegenskap av den foreliggende oppfinnelse at kombinasjonen av nedblandingskanalene blir oppnådd ved enkel, beregningsmessig billige aritmetiske operasjoner, slike som summering.
Det samme gjelder for kombinasjonen av parametrene som forbinder nedblandingskanalene. Fordi at generelt må minst en undergruppe av de forbundne parametre være endret under kombineringen av audioinngangs signalene, er det meget viktig at beregningene som utføres for å endre parametrene er enkle og dermed ikke trenger betydelig regnekraft eller at de pådrar seg tilleggsforsinkelse for eksempel ved å bruke filterbanker eller andre operasjoner som involverer minne.
Ifølge én utførelse av den foreliggende oppfinnelse blir en audiosignalgenerator for å generere et audioutgangssignal realisert for å kombinere et første og et andre audiosignal, begge er parametrisk kodet. For å generere audioutgangssignalet utvinner den oppfinneriske audiosignalgenerator nedblandingskanalene fra audioinngangssignalene og genererer en kombinert nedblandingskanal ved å danne en lineær kombinasjon av de to nedblandingskanaler. Det vil si at hver enkelt kanal blir lagt til med bruk av tilleggsvekting.
I en foretrukken utførelse av den foreliggende oppfinnelse blir vektingene som brukes utledet ved veldig enkle aritmetiske operasjoner, for eksempel ved å bruke antallet av kanaler representert ved det første audiosignal og det andre audiosignal som et grunnlag for beregningen.
I en ytterligere foretrukken utførelse blir vektingsberegningen utført under antagelsen av at hver opprinnelige audiokanal fra inngangssignalene bidrar til den totale signalenergi med den samme mengde. Det vil si at de benyttede vektinger er enkle forhold av kanalantall fra inngangssignalene og det totale antallet av kanaler.
I en ytterligere foretrukken utførelse av den foreliggende oppfinnelse blir vektingen av hver enkelt nedblandingskanal beregnet på grunnlag av energien som er innbefattet i nedblandingskanalene for å gjøre en mer autentisk gjengivelse av den kombinerte nedblandingskanal mulig i det fremstilte audioutgangssignal.
I ytterligere en foretrukken utførelse av den foreliggende oppfinnelse er den beregningsmessige innsatsen ytterligere redusert ved at bare parametrene forbundet med ett av de to audiosignaler blir endret. Det vil si at parametrene av det andre audiosignal blir sendt uendret, derfor uten å forårsake noen beregninger og dermed minimere belastningen på den oppfinneriske audiosignalgenerator.
I de følgende avsnitt vil det oppfinneriske konsept bli beskrevet i detalj i hovedsak for en kodingsplan som benytter forbundet kildekoding (JSC). I den mening utvider den foreliggende oppfinnelse denne teknologien for å forbinde flere monofoniske eller JSC-kapable sender- og mottakerkombinasjoner til fjerne stasjoner ved å blande JSC-nedblandingssignaler og objektinformasjon innenfor parameterdomenet. Som betraktningene ovenfor har vist er det oppfinneriske konsept ikke på noen måte begrenset til bruken av JSC-koding, men kunne også bli realisert med BCC-koding eller andre flerkanals kodeplaner, slike som MPEG romlig audiokoding (MPEG Surround) og dets like.
Fordi det oppfinneriske konsept vil bli beskrevet i detalj hovedsakelig ved å bruke JSC-koding, vil for klarere å peke ut fleksibiliteten av det oppfinneriske konsept og forbedringene som blir oppnåelige over kjent teknikk ved å benytte det oppfinneriske konsept for eksisterende flerkanals audiokodingsplaner, et kort tilbakeblikk bli tatt på JSC-koding innenfor de etterfølgende avsnitt.
Kort beskrivelse av tegningene
Figur 1 viser et eksempel på en JSC-kodingsplan,
figur 2 viser et eksempel på en JSC-gjengiver,
figur 3 viser et telekonferansescenario med to lokaliteter,
figur 4 viser et telekonferansescenario med tre lokaliteter,
figur 5 viser et eksempel på telekonferanse ved å bruke en oppfinnerisk audiosignalgenerator,
figur 6 viser et ytterligere eksempel på telekonferanse ved å bruke en oppfinnerisk audiosignalgenerator,
figur 6b viser bakoverkompatibiliteten av det oppfinneriske konsept, og figur 7 viser et eksempel for en oppfinnerisk audiosignalgenerator.
Detaljert beskrivelse
For forklaringen av JSC-koding, vil henvisning i det følgende bli gjort til figur 1 og 2. Innenfor de følgende figurer deler funksjonelt identiske komponenter de samme referansetegn, dette indikerer at enkeltkomponenter som sørger for den samme funksjonalitet kan bli utvekslet mellom de enkelte realiseringer av den foreliggende oppfinnelse uten å tape eller begrense funksjonalitet og uten å begrense omfanget av den foreliggende oppfinnelse.
Figur 1 viser et blokkdiagram av planen for forbundet kildekode, en tilsvarende koder 2 og en tilsvarende dekoder 4.
Koderen 2 mottar diskrete audioinngangssignaler s;(n) 6a, 6b og 6c og danner et nedblandingssignal s(n) 8 for eksempel ved en summering av bølgeformene.
I tillegg utvinner en parameterutvinner 10 innenfor koder 2, parametrisk sideinformasjon for hvert enkelt objekt (signal 6a, 6b og 6c). Selv om det ikke er vist i figur 1 kan nedblandingssignalet 8 være ytterligere komprimert ved en tale- eller audiokoder og blir sendt med den tilliggende parametriske sideinformasjon til JSC-dekoderen 4. En syntesemodul 12 innenfor dekoder 4 regenererer anslagene 14a, 14b og 14c (s,(«)) av inngangsobjektene (kanal 6a, 6b og 6c).
For å kunne gjenskape anslagene 14a, 14b og 14c, som oppfattelsesmessig likner de diskrete inngangsobjekter (inngangskanaler) 6a, 6b og 6c, må hensiktsmessig parametrisk sideinformasjon for hver kanal bli utvunnet. Fordi de enkelte kanaler blir summert opp for generering av nedblandings signal 8 er effektforhold mellom kanaler slike egnede størrelser. Derfor kan den parametriske informasjonen for de forskjellige objekter eller kanaler bestå av effektforhold Ap for hvert objekt i forhold til det første objekt (referanseobjekt).
Denne informasjon blir utledet i frekvensdomenet i ujevnt fordelte frekvensbånd (delbånd) som svarer til den kritiske båndoppløsningen for menneskelig, hørselsmessig oppfattelse. Dette er et konsept beskrevet mer i detalj for eksempel i: J. Blauert: "Spatial Hearing: The Psychophysics of Human Sound Localization"(Romlig hørsel: psykofysikken til menneskelig lokalisering av lyd), The MIT Press, Cambridge, MA, USA, revidert utgave 1997.
Det vil si at bredbånds, audioinngangskanaler blir filtrert inn til mange frekvensbånd av endelig båndbredde, og for hver av de individuelle frekvensbånd blir de følgende beregninger utført. Som allerede nevnt virker den båndvise effekt av det første objekt (referanseobjekt«Iler referansekanal) som en referanseverdi.
For å unngå å irMøre ytterligere anordninger, for eksempel innført ved en divisjon med null, kan disse effektforhold (i den logaritmiske representasjon) ytterligere bli begrenset til et maksimum av, for eksempel 24 dB i hvert delbånd. Effektforholdet kan videre blir kvantisert forut for oversending for i tillegg å spare overføringsbåndbredde.
Det er ikke nødvendig å eksplisitt sende effekten av det første objekt. Isteden kan denne verdi bli utledet fra antagelsen at for statistisk uavhengige objekter er summen av effektene av de syntetiserte signaler §i(n) lik effekten av det nedblandede signal s(n). Uttrykt ved et matematisk uttrykk betyr dette:
Basert på'~denne antakelse og likningen kan delbåndeffektene for det første objekt (referanseobjektet eller referansekanalen) bli gjenskapt slik som det vil bli beskrevet videre nedenfor under detaljert beskrivelse av det oppfinneriske konsept.
For å oppsummere omfatter et audiosignal eller en audiostrøm ifølge JSC en nedblandingskanal og forbundne parametre, parametrene beskriver effektforhold fra opprinnelige kanaler med hensyn til én opprinnelig referansekanal. Det kan bli bemerket at dette scenario lett kan bli endret ved at andre kanaler blir valgt til å være referansekanal. For eksempel kan nedblandingskanalen selv være referansekanalen, noe som nødvendiggjør sendingen av én tilleggsparameter som vedrører effekten av den første, tidligere referansekanal, i forhold til effekten av nedblandingskanalen. Referansekanalen kan også bli valgt å være varierende ved at den ene kanal med mest effekt blir valgt til å være referansekanalen. Når effekten innenfor de enkelte kanaler endres med tiden kan referansekanalen derfor også variere med tiden. På grunn av det faktum at all behandling typisk blir utført på en frekvensselektiv måte, kan referansekanalen også være forskjellig for forskjellige frekvensbånd.
Figur 2 viser en ytterligere forbedret plan for JSC-koding, basert på planen fra figur 1. Egenskapene som er detaljert beskrevet med hensyn til figur 1 er lukket inn med lagrings- eller senderboksen 20, for å motta inngangskanalene 6 som skal bli kodet og gi ut anslag 14 over inngangskanalene 6. Planen fra figur 2 er forbedret ved at den ytterligere omfatter en blander 22 for å motta anslagene. Det betyr at de syntetiserte objekter 14 ikke blir direkte gitt ut som enkeltaudiosignaler, men gjengitt til N utgangskanaler i blandermodulen. En slik blander kan bli realisert på forskjellige måter, for eksempel å motta tilleggsblandeparametre 24 som inngangssignal for å styre blandingen av de syntetiserte objekter 14. Bare som et eksempel kan man betrakte et telekonferansescenario hvor hver av utgang skanalene 26 er tillagt én deltager ved konferansen. Derfor har en deltaker ved den mottakende ende muligheten til virtuelt å skille mellom de andre deltagere ved å tildele deres stemmer til individuelle posisjoner. Derfor trenger ikke bare stemmen tjene som kriterium for å skille mellom forskjellige deltakere av en telefonkonferanse, men også retningen hvor en lytter mottar stemmen til en deltager fra. Videre kan en lytter innstille utgangskanalen slik at alle deltakerne fra den samme telekonferanselokalitet blir gruppert i den samme retning, for å forbedre den oppfattelsesmessige opplevelse enda mer.
Som vist i figur 2 betegnerSi(n) ... sM(n) de diskrete audioobjekter ved inngangen av JSC-koderen. Ved JSC dekoderutgangen representerer §i(n) ... sM(n) de "virtuelt" atskilte audioobjekter som blir matet til blanderen. Blandeparametre 24 kan bli interaktivt endret ved mottakerenden for å plassere de forskjellige objekter i en lydscene som blir gjenskapt av utgangskanalene x^n)..xN(n).
Figur 3 viser anvendelsen av flerkanals audiokodingsplaner for et grunnleggende telekonferansescenario, som finner sted mellom to lokaliteter. Her kommuniserer en første lokalitet 40 med en andre lokalitet 42. Den første lokaliteten kan ha A deltakere, det vil si A audioobjekter, den andre lokaliteten har B deltagere eller audioobjekter. For punkt til punkt telekonferanser kan den beskrevne teknologi av JSC-koding bli benyttet rett frem for å sende audiosignaler fra flere objekter ved hver lokalitet til den tilsvarende fjerne stasjon. Det betyr at (A-I) parametre a; og en forbundet nedblanding blir overført til lokalitet 42. I den motsatte retning blir (B-l) parametre bi sendt sammen med en forbundet nedblanding til lokalitet 40.
For telekonferanse med flere enn to endepunkter er situasjonen helt annerledes som illustrert i figur 4.
Figur 4 viser bortsett fra lokalitetene 40 og 42 en tredje lokalitet 44. Som man kan se i figur 4 trenger et slikt scenario en sentral distributør for de forbundne audiosignaler, i alminnelighet kalt flerpunktsstyringsenhet, (engelsk: multi point control unit) (MCU). Hver av lokalitetene (lokasjonene) 40, 42 og 44 blir forbundet til MCU-en 46. For hver lokalitet 40, 42 og 44 er det én enkelt oppstrøm til MCU-en omfattende signalet fra lokaliteten. Fordi hver enkelt lokalitet trenger å motta signalene fra de gjenværende lokaliteter, er nedstrømmen til hver lokalitet 40, 42 og 44 en blanding av signalene fra de andre lokaliteter, unntatt lokalitetens eget signal, som også refereres til som (N-l)-signalet. For å oppfylle kravene fra oppsettet og holde sendebåndbredden rimelig lav, blir generelt sending av N-l JSC-kodete strømmer fra MCU-en til hver lokalitet ikke mulig. Dette ville selvsagt være det mest rettfrem valg.
Fremgangsmåten fra kjent teknikk for å utlede hver enkelt nedstrøm er å gjensyntetisere alle innkommende strømmer (objekter) innenfor MCU-en 46 ved å bruke en JSC-dekoder. Så kunne de gjensyntetiserte audioobjektene bli omgruppert og gjenkodet for slik å forsyne audiostrømmer omfattende de ønskede audioobjekter eller audiokanaler til hver lokalitet. Selv innenfor dette enkle scenario ville dette bety tre dekode- og tre kodeoppgaver, som må bli utført samtidig innenfor MCU 46. Til tross for de betydelige beregningsmessige krav, kan hørbare lyder (engelsk: artefacts) i tillegg bli ventet fra denne parametriske "tandem kodings-" (gjentatt koding/dekoding) prosess. Å øke antallet av lokaliteter ville ytterligere øke antallet av strømmer og dermed antallet av nødvendige kode- eller dekodeprosesser, som gjør at ingen rett frem fremgangsmåte er mulig for sanntidsscenarier.
Ifølge den foreliggende oppfinnelse er derfor en plan for å blande forskjellige parametrisk kodete strømmer (JSC-strømmer i dette enkelteksempel) direkte innenfor nedblandings- og objektparameterdomenet blitt utviklet for et slikt MCU-type scenario, for å danne de ønskede utgangssignaler (utgangsaudiostrømmer) med et minimum av beregningsmessig innsats og kvalitetstap.
Innenfor de etterfølgende avsnitt blir det oppfinneriske konsept av å direkte blande flerkanals, parametrisk kodede audiostrømmer innenfor parameterdomenet beskrevet i detalj for JSC-kodede audiostrømmer.
Det oppfinneriske konsept blir forklart med kombinasjonen av to opprinnelige audiosignaler (audiostrømmer) inn i ett utgangssignal. Å sammenkople tre eller flere strømmer kan lett bli utledet fra tilfellet av å kombinere to strømmer. De følgende matematiske betraktninger blir illustrert av figur 5, som viser et tilfelle hvor tre audiokanaler fra en lokalitet A skal bli kombinert med fire audiokanaler fra lokalitet B. Dette er selvsagt bare et eksempel for å synliggjøre det oppfinneriske konsept.
Lokalitet 50 (A), med tre konferansedeltakere (høyttalere) 52a til 52c for å generere signaler sa»sender en audiostrøm eller et audiosignal 54 under bruk av JSC-koding. Audiosignal 54 har en nedblandingskanal Sa og parameter a2og a 3, for å relatere effekten av kanal 52b og 52c med effekten av kanal 52a. Likeledes sender lokalitet 56 (B) et audiosignal 58 med en nedblandingskanal sB og tre parametre b2, b3 og b4, som er de JSC-kodete representasjoner av fire talere 60a til 60d. MCU 46 kombinerer audiosignalene 54 og 58 for å utlede et utgangssignal 62 med en kombinert nedblandingskanal sY og 6 parametre y2, ..., y7.
På den mottakende side dekoder mottakeren 64 utgangssignalet 62 for å utlede representasjoner av de 7 audioobjekter eller audiokanalene fra lokalitet 50 og 56.
Generelt uttrykt er målet å danne en enkelt kombinert representasjon 62 av to JSC-strømmer 54 og 58, hvor hver representerer et antall av objekter ved ett felles nedblandingssignal sY og ett sett av objekt parametre for å karakterisere objektene. Ideelt skal den kombinerte JSC-representasjon være identisk med den ene som ville blitt oppnådd ved å kode det fulle sett av opprinnelige kildesignaler som utgjør begge JSC-strømmer, til en enkelt JSC-strøm i ett trinn.
For å holde de etterfølgende formler enkle, antar vi at de relative effektforhold fra likning 1 ikke er tilgjengelige i det logaritmiske domene, men bare som effektforhold. Hver objektparameter r;(n) av et bestemt objekt i kan bli utledet etter:
Transporieringen i det logaritmiske domene kan bli benyttet etterpå til hver parameter for å kunne muliggjøre kvantisering ved å bruke en logaritmisk effektskala.
Alle signaler under er antatt å være oppløst til en delbåndrepresentasjon, slik at hver av beregningene blir benyttet separat til hvert delbånd.
Vi har en strøm A med dens nedblandingssignal sA og parametre (relative effektforhold) for U objekter a2, ■■■, ay. Strøm B består av nedblandingssignalet sB og parametre for V objekter b2, ..., by.
Det kombinerte nedblandingssignal Sy kan bli dannet som en lineær kombinasjon av både nedblandingssignal sA og sB. For å sikre korrekt voluminstilling av de forskjellige objektbidrag kan forsterkningsfaktor gA og gB bli benyttet.
Denne form for skalering kan være meningsfull hvis enkeltlydkilder av lik eller gjennomsnittlig effekt har blitt summert og normalisert til hele omfanget av nedblandingssporet.
Alternativt kunne man bruke en effektsparende fremgangsmåte for forsterkningsfaktorene med ,
En annen mulighei er a velge forsterkningsfaktoren slik at begge nedblandingssignaler bidrar med den samme gjennomsnittlige energi til den kombinerte nedblandin<g>, det vil si ved å velge
Objektparametrene yi for den kombinerte strøm sy skal representere alle U + V objekter.
Siden parametrene forbundet med nedblandingskanalene er relative effektforhold kan parametrene a2, ..., au bli brukt som de er (uendret) og parametrene for objekter fra B kan bli lenket (engelsk: concatenated) til parametrene a2, ... , au- Når det første objekt fra signal A er valgt å være referanseobjekt eller referansekanal, må de opprinnelige parametre bi bli transformert for å relatere til referansekanalen. Det kan bli bemerket at bare parametrene fra én strøm må bli beregnet på nytt, noe som ytterligere reduserer den beregningsmessige belastning innenfor en MCU 46.
Det kan videre bli bemerket at det absolutt ikke er nødvendig å bruke referansekanalen fra én av de opprinnelige audiostrømmene som ny referansekanal. Det oppfinneriske konsept av å kombinere parametrisk kodete audiostrømmer innenfor parameterdomenet kan veldig gjerne også bli realisert med andre referansekanaler, valgt fra antallet av opprinnelige kanaler fra lokalitet A eller B. En ytterligere mulighet ville være å bruke den kombinerte nedblandingskanal som ny referansekanal.
Etter denne fremgangsmåten for å bruke den opprinnelige referansekanal fra lokalitet A som ny referansekanal (kombinert referansekanal) må først energien (effekten) av det første objekt (kanal) fra hvert signal A og B bli beregnet, siden disse bare er implisitt tilgjengelige.
Ved antakelse av statistisk uavhengige kilder gir effektbevaringen for nedblandingssignal A:
Signaleffektene E\ sA ( ri) f, ..., Ejs^^ ri)} blir definert med deres relative effekt a2, ..., ay i forhold til e{ s] ( ri)} : Dette føre* til effekten1 \
Ved å benytte det samme for nedbTandingssignal Sb, kan vi beregne effekten av
V
Nå kan vi byggé del nyé parametersett for alle objekter fra signal sY:
yi: (ikke sendt, referanseobjekt, implisitt tilgjengelig)
y2<=>a2
Y3<=>a3
(effektforholdérlavTørlstépbjekt fra signal B med hensyn til referanseobjekt Al)
(effektforholdet av andre objekt fra signal B renormalisert til effekten av referanseobj ektet Al)/2\
Som de tidligere åVsmtt har vist, gjør det oppfinneriske konsept det mulig å generere en kombinert audiostrøm ved å benytte bare enkle aritmetiske operasjoner, dermed blir beregningen ekstremt effektiv. Dermed kan kombinasjonen av flere parametrisk kodete audiostrømmer bli utført i sann tid.
For ytterligere å gjøre den store fleksibilitet av det oppfinneriske konsept tydelig, viser figur 6 hvordan et monofonisk signal 70 forårsaket av en enkelt taler ved lokalitet 56 oppfinnerisk kan bli kombinert med to eller flere JSC-kodete signaler fra talere ved lokalitet 50. Det betyr at på grunn av fleksibiliteten av det oppfinneriske konsept kan monofoniske signaler fra vilkårlige telekonferansesystemer på en oppfinnerisk måte bli kombinert med parametrisk kodede flerkanals (flerobjekts) kilder for å fremstille et JSC-kodet audiosignal som representere alle opprinnelige audiokanaler (audioobjekter).
For å utvide forenligheten også med fjerne stasjoner som ikke er i stand til å sende JSC-objekter, men tradisjonelle monofoniske signaler, er denne teknikken også anvendelig for å sette inn et monofonisk objekt for eksempel fra en tidligere benyttet konferanseenhet til den objektbaserte strøm.
Eksempelet over med JSC- strømmen A (nedblanding sA, parametre a2, ..., ay) og et monofonisk objekt C (nedblandingSc) fører til et kombinert signal Z med nedblandingssignalet
Sz<=>gA-SA<+g>C'Sc
med forsterkningsfaktorer som tidligere drøftet og dets objektparametre:
yi: (ikke sendt, referansekanal, implisitt tilgjengelig)
(effektforholdTér signM C med hensyn til referanseobjekt Al)
Det foran nevnte eksempel av å kodeomforme/slå sammen to JSC-strømmer avhenger av representasjonen av effekten av objektene som gitt i likning 1. Uansett kan den samme oppfinneriske plan også bli benyttet for andre måter å representere denne informasjon.
Figur 6b gjør igjen den store fleksibilitet av det oppfinneriske konsept for å innlemme én monofonisk audiokilde tydelig. Figur 6b er basert på flerkanals scenariet fra figur 4 og viser dessuten hvor lett en monofonisk audiokoder fra eksisterende teknikk ved lydkilde C 44 kan bli integrert i en flerkanals audiokonferanse ved å benytte den oppfinneriske MCU 46.
Som tidligere nevnt er det oppfinneriske konsept ikke begrenset til JSC-koding med en forhåndsbestemt fast referansekanal. Derfor kan i et alternativt eksempel effektfaktoren bli beregnet med hensyn til en referansekanal som varierer over tid, referansekanalen er den ene kanal med mest energi innenfor et gitt forutbestemt tidsintervall.
Isteden for å normalisere den båndvise signaleffektverdi i forhold til effekten av det tilsvarende bånd fra en fast referansekanal (referanseobjekt) og å transponere resultatet til det logaritmiske (dB) domene som skissert ved likning 1, kan normaliseringen finne sted i forhold til den maksimale effekt over alle objekter i et visst frekvensbånd:
Disse normaliserte effektverdier (som er gitt i en lineær representasjon) trenger ikke noen ytterligere begrensning til en viss øvre grense siden de i utgangspunktet bare kan anta verdier mellom 0 og 1. Denne fordel medfører ulempen ved å måtte sende én tilleggsparameter for den ikke lenger på forhånd kjente referansekanal.
Blandeprosessen for dette scenariet ville omfatte de følgende trinn (som igjen må bli utført separat for hvert delbånd): Vi har en strøm A med dens nedblandingssignal sA og parametre (normaliserte effektverdier, likning 3, likning 1) for U objekter ai, ..., au-
Strøm B omfatter nedblandingssignalet Sb og parametre for V objekter bi, ..., bv.
Et kombinert nedblandingssignal kan bli dannet ifølge én av de allerede viste valgmuligheter:
Alle normaliserte effektverdier for den kombinerte representasjon yi? må settes i forhold til objektet med den høyeste effekt av alle objekter fra signal Y. Det er to kandidater til å bli dette "maksimale objekt" fra Y, enten det maksimale objekt fra A eller det maksimale objekt fra B, begge kan bli identifisert ved å ha et normalisert effektforhold på "1".
Denne avgjørelse kan bli tatt ved å sammenlikne den absolutte effekt av begge kandidater. Igjen kan vi bruke forholdet til effekten av nedblandingssignalene (likning 2) for å få:
Nå kan'sammenlikne de m«es=imale objekteffektene vektet med forsterkningsfaktorene fra nedblandingsprosessen:
gA2- E{ s^( n)}>gl
Uansett hvilket objekts effekt er den høyeste, vil dette objektet tjene som "maksimumsobjekt" for de kombinerte parametre y;.
Som et eksempel, la a2være den helhetlige maksimale objekteffekt amaxav de to signalene A og B, da kan alle andre parametre bli kombinert som
(effektforholdet av^første^bjekt fra signal B med hensyn til "maksimumsobjekt", her:
For dette ekslsm<p>ef-kan<J>alle parametre for objektene fra A bestå uendret siden signal A bar det helhetlig største objekt.
I denne representasjon kan også innsettelsen av et monofonisk objekt bli utført deretter, for eksempel ved å anta at V = 1.
Generelt blir kodeomformingsprosessen utført slik at dens resultat nærmer seg resultatet som hadde blitt oppnådd hvis alle opprinnelige objekter for begge strømmer først hadde blitt kodet til en enkelt JSC-strøm.
Figur 7 viser et eksempel for en oppfinnerisk audiosignalgenerator for å generere et audioutgangssignal, slik at den kan bli brukt innenfor MCU 46 for å realisere det oppfinneriske konsept.
Audiosignalgeneratoren 100 omfatter en audiosignalmottaker 102, en kanalkombinerer 104, en parameterkalkulator 106 og et utgangsgrensesnitt 108.
Audiosignalmottakeren 102 mottar et første audiosignal 110 som omfatter en første nedblandingskanal 110a med informasjon om to eller flere første opprinnelige kanaler og omfattende en opprinnelig parameter 110b forbundet med én av de opprinnelige første kanaler for å beskrive en egenskap ved én av de opprinnelige først kanaler med hensyn til en referansekanal. Audiosignalmottakeren 102 mottar videre et andre audiosignal 112 omfattende en andre nedblandingskanal 112a med informasjon om minst én andre opprinnelig kanal.
Audiosignalmottakeren gir ut den første nedblandingskanal 110a og den andre nedblandingskanal 112a til en inngang av kanalkombinereren 104 og den første nedblandingskanal 110a, den andre nedblandingskanal 112a og den opprinnelige parameter 110b til parameterkalkulatoren 106.
Kanalkombinereren 104 utleder en kombinert nedblandingskanal 114 ved å kombinere den første nedblandingskanal 110a og en andre nedblandingskanal 112b, det vil si ved å kombinere nedblandingskanalene direkte uten å rekonstruere de underliggende opprinnelige audiokanaler.
Parameterkalkulatoren 106 utleder en første kombinert parameter 116a for å beskrive egenskapen ved én av de første opprinnelige kanaler med hensyn til en felles referansekanal og en andre kombinert parameter 116b for å beskrive egenskapen av én annen av de første opprinnelige kanaler eller ved den minst ene andre opprinnelige kanal med hensyn til den samme felles referansekanal. Den første og den andre kombinerte parameter blir sendt inn til utgangsgrensesnittet 108, som ytterligere mottar den kombinerte nedblandingskanal 114 fra kanalkombinereren 104. Til slutt gir utgangsgrensesnittet ut et utgangssignal 120 som omfatter den kombinerte nedblandingskanal 114 og den første og den andre kombinerte parameter 116a og 116b.
Audioutgangssignalet har dermed blitt utledet uten full rekonstruksjon av inngangsaudiosignaler og dermed uten beregningsmessig kostbare operasjoner.
Innenfor avsnittene over har det generelle konsept av å blande to eller flere signaler, hvert basert på en JSC-parametrisk fremgangsmåte blitt vist. I særdeleshet viser likningene over hvordan anvende denne teknikk til et tilfelle hvor den parametriske informasjon består av relative effektforhold. Allikevel er denne teknikken ikke begrenset til en spesifikk representasjon av objektparametre. Derfor kan også parametre for å beskrive midler eller andre egenskaper ved individuelle audiokanaler, slike som korrelasjoner bli benyttet. Effektforholdene kan også bli beregnet med hensyn til den kombinerte nedblandingskanal, til kostnaden av å sende én tilleggsparameter. På den annen side drar man fordel i dette alternative scenariet fra redusert beregningsmessig kompleksitet under blandingen av audiostrømmer, siden rekonstruksjonen av effekten av referansekanalen, som ikke er eksplisitt sendt i "generisk" JSC, er foreldet.
Videre er oppfinnelsen ikke begrenset til et telekonferansescenario, men kan bli benyttet hvor som helst hvor multipleksing av parametriske objekter inn i en enkelt strøm er ønskelig. Dette kan for eksempel være tilfellet innenfor BCC-kodingsplaner, MPEG-romomgivelse og andre.
Slik som har blitt vist gjør det oppfinneriske konsept det til og med mulig å sømløst innbefatte tidligere brukte fjernstasjoner for å sørge for et enkelt monofonisk signal inn i det objektbaserte scenario. Utenom kombineringen av forskjellige objektstrømmer viser det oppfinneriske konsept også hvordan forskjellige måter å representere parametriske data kan bli fremstilt slik at de er egnet for å muliggjøre beregningsmessig effektive kombineringsprosesser. Som sådan er det en fordelaktig karakteristikk av en oppfinnerisk, parametrisk bitstrømsyntaks for å uttrykke objektegenskapene på en slik måte at to strømmer kan bli kombinert ved å utføre bare enkle operasjoner.
Derfor forklarer det oppfinneriske konsept hvordan skape hensiktsmessige bitstrømmer eller bitstrømformater for parametrisk å kode flere opprinnelige audiokanaler (audioobjekter) ved å holde fast på de følgende kriterier: • Det kombinerte nedblandingssignal blir formet helt enkelt fra de delvis nedblandede signaler.
Den kombinerte parametriske sideinformasjon blir dannet ved å kombinere individuell parametrisk sideinformasjon og noen beregningsmessig enkle egenskaper av nedblandingssignalene (for eksempel energi).
Ikke i noe tilfelle trenger en kompleks operasjon slik som et dekoding - /gjenkodingstrinn for audioobj ektene å bli utført.
Derfor må den parametriske representasjon for å beskrive objektene bli valgt slik at en kombinasjon ("addisjon") av to eller flere objektstrømmer er mulig ved å benytte bare bitstrømfelter som er tilgjengelige som del av den parametriske sideinformasjon og muligens beregningsmessig enkle mål av nedblandingssignalene (for eksempel energi, toppverdi).
Et eksempel på en slik representasjon kunne være å bruke normaliserte effektverdier (likning 4) for hvert objekt. Disse kunne bli omformet til en logaritmisk representasjon (dB) og så kvantisert til et visst antall av kvantiseringstrinn eller deres representerende kvantiseringsindekser. Bitstrømsyntaksen skulle muliggjøre lett økning (eller reduksjon) av antallet av objektparametre i en strøm, for eksempel ved simpelthen å la følge etter hverandre, å sette inn eller å fjerne parametre.
Oppsummert gjør det oppfinneriske konsept en meget fleksibel og beregningsmessig effektiv kombinasjon av parametrisk kodete audiostrømmer mulig. På grunn av den høye beregningsmessige effektivitet er det oppfinneriske konsept ikke begrenset til at et maksimalt antall av kanaler kan bli kombinert. I prinsipp kan kanalene, som kan bli kombinert i sanntid, bli gjort tilgjengelige for en oppfinnerisk audiosignalgenerator i vilkårlige antall. Den presise parametriske representasjon (JSC) som bli brukt til å illustrere det oppfinneriske konsept er heller ikke påkrevet. Videre kan som allerede nevnt andre parametriske kodingsplaner, slike som de vanlig kjente planer for omgivende rom være grunnlag for anvendelsen og det oppfinneriske konsept.
Videre trenger ikke de nødvendige beregninger bli utført i programvare. Hardvarerealiseringer som benytter for eksempel DSP-er, ASIC-er og andre integrerte kretser kan også bli brukt for å utføre beregningene, noe som ytterligere vil øke hastigheten av det oppfinneriske konsept, for å muliggjøre anvendelsen av det oppfinneriske konsept i sanntidsscenarier.
På grunn av fleksibiliteten av det oppfinneriske konsept kan oppfinneriske audiostrømmer være basert på forskjellige parametriske representasjoner. Parametrene som skal sendes kunne for eksempel også være amplitudemålinger, tidsforskjeller mellom opprinnelige audiokanaler, koherensmålinger og annet.
Dermed har det generelle konsept for å blande to eller flere signaler som hvert er basert på en JSC-type av parametrisk fremgangsmåte blitt vist.
Likningene over viser hvordan benytte denne teknikken for et tilfelle hvor den parametriske informasjon består av relative effektforhold. Uansett er denne teknikken ikke begrenset til en spesifikk representasjon av objektparametre.
Videre er oppfinnelsen ikke begrenset til et telekonferansescenario, men kan bli benyttet i hvilket som helst tilfelle hvor multipleksing av parametriske objekter inn i en enkelt JSC-strøm er fordelaktig.
I tillegg gjør denne teknikken det mulig sømløst å innbefatte tidligere benyttede fjerne stasjoner ved å sørge for et enkelt monofonisk signal inn i det objektbaserte scenario.
I tillegg til den virkelige prosess for å kombinere forskjellige objektstrømmer, viser oppfinnelsen også hvordan forskjellige måter av å representere parametriske data er hensiktsmessig for å gjøre denne kombineringprosess mulig. Siden ikke alle mulige parametriske parametriske representeringer tillater en kombineringsprosess slik som beskrevet uten full dekoding/gjenkoding av objektene er det en fordelaktig karakteristikk av en parametrisk bitstrømsyntaks å uttrykke objektegenskapene på en måte som to strømmer kan bli kombinert ved å utføre bare enkle operasjoner.
Avhengig av visse realiseringskrav av de oppfinneriske fremgangsmåter kan de oppfinneriske fremgangsmåter bli realisert i hardvare eller i programvare. Realiseringen kan bli utført ved å benytte et digitalt lagringsmedium, i særdeleshet en disk, DVD eller en CD med derpå lagrede elektronisk lesbare styresignaler, som samarbeider med et programmerbart datamaskinsystem slik at de oppfinneriske fremgangsmåter blir utført. Generelt er den foreliggende oppfinnelse derfor et datamaskinprogramprodukt med en programkode lagret på en maskinlesbar bærer, programkoden virker til å utføre de oppfinneriske fremgangsmåter når datamaskinprogramproduktet kjører på en datamaskin. Med andre ord er den oppfinneriske fremgangsmåte derfor et datamaskinprogram med en programkode for å utføre minst én av de oppfinneriske fremgangsmåter når datamaskinprogrammet kjører på en datamaskin.
Mens det forutgående i særdeleshet har vært vist og beskrevet med referanse til enkelte utførelser av den, vil det bli forstått av de kyndige i teknikken at mangfoldige andre endringer i formen og detaljene kan bli gjort uten å fravike ideen og omfanget av den. Det skal også forstås at mangfoldige endringer kan bli gjort for tilpasning til forskjellige utførelser uten å fravike fra det videre konsept fremlagt her og sammenfattet av kravene som følger.

Claims (11)

1. Audiosignalgenerator (100) for å generere et audioutgangssignal,karakterisert ved: en audiosignalmottaker (102) for å motta: et første audiosignal (110) omfattende en første nedblandingskanal (110a) med informasjon om to eller flere første opprinnelige kanaler og omfattende minst én opprinnelig parameter (110b) forbundet med én av de første opprinnelige kanaler for å beskrive et energiforhold til én av de første opprinnelige kanaler med hensyn til en referansekanal, og et andre audiosignal (112) omfattende en andre nedblandingskanal (112a) med informasjon om minst én andre opprinnelig kanal; en kanalkombinerer (104) for å utlede en kombinert nedblandingskanal (114) ved å kombinere den første nedblandingskanal (110a) og den andre nedblandingskanal (112a); en parameterkalkulator (106) for å utlede en første kombinert parameter (116a), ved å bruke energien E{Sa (n)} fra den første nedblandingskanal og E{Sb (n)} fra den andre nedblandingskanal og den minst ene opprinnelige parameter, eller alternativt å bruke et energiforhold relativt til en felles referansekanal, hvor den felles referansekanalen er den ene opprinnelige blant de først opprinnelige kanalene og den minst ene andre opprinneligekanalen, som har den høyeste energien innenfor et gitt tidsinterval, en første kombinert parameter (116a) som beskriver energiforholdet til én av de opprinnelige kanaler med hensyn til en felles referansekanal, og en andre kombinert parameter (116b) for å beskrive energiforholdet til én annen av de første opprinnelige kanalene eller til den minst ene andre opprinnelige kanal med hensyn til den felles referansekanalen; og et utgangsgrensesnitt for å gi ut audioutgangssignalet (120), omfattende den kombinerte nedblandingskanal (114), den første (116a) og den andre kombinerte parameter (116b).
2. Audiosignalgenerator (100) ifølge krav 1,karakterisert vedat kanalkombinereren (104) virker til å utlede den kombinerte nedblandingskanal (114) ved å bruke en lineær kombinasjon av den første (110a) og den andre nedblandingskanal (110b).
3. Audiosignalgenerator (100) ifølge krav 2,karakterisert vedat kanalkombinereren (104) virker til å bruke en lineær kombinasjon med koeffisienter som er avhengige av antallet U til den første opprinnelige kanal og av antallet V til den andre opprinnelige kanal.
4. Audiosignalgenerator (100) ifølge krav 3,karakterisert vedat kanalkombinereren (104) virker til å bruke en lineær kombinasjon med en koeffisient gA fra den første nedblandingskanal (110a) og en koeffisient gB fra den andre nedblandingskanal (112a) utledet ifølge én av de følgende likninger:
5. Audiosignalgenerator (100) ifølge hvilket som helst av de foregående krav,karakterisert vedat parameterkalkulatoren (106) virker til å beregne energien E{sAref} av referansekanalen ved å utlede energien av den først nedblandingskanal (110a) og parametre ai{i = 1, n} forbundet med andre kanaler enn referansekanalen ifølge likningen:
6. Audiosignalgenerator (100) ifølge hvilket som helst av de foregående krav,karakterisert vedat parameterkalkulatoren (106) virker til å bruke referansekanalen som den felles referansekanal og den opprinnelige parameter a2som første kombinerte parameter yu og å utlede den andre kombinerte parameter yu+1for den minst ene andre (engelsk: second) opprinnelige kanal med hensyn til referansekanalen.
7. Audiosignalgenerator (100) ifølge hvilket som helst av de foregående krav,karakterisert vedat parameterkalkulatoren (106) virker til videre å bruke koeffisienter gA forbundet med den første nedblandingskanal (110a) og gB forbundet med den andre nedblandingsskanal (112b), koeffisientene blir brukt til den lineære kombinasjon av den første og den andre nedblanding brukt av kanalkombinereren (104).
8. Audiosignalgenerator (100) ifølge hvilket som helst av de foregående krav,karakterisert vedat parameterkalkulatoren (106) virker til å beregne den andre kombinerte parameter yu+1for den minst ene andre opprinnelige kanal ifølge den følgende likning:
hvor W) er energien av referansekanalen utledet ved å bruke energien av den første nedblandingskanal ifølge den følgende formel:
hvor a2er den opprinnelige parameter som relaterer en første opprinnelig kanal til referansekanalen.
9. Audiosignalgenerator (100) ifølge hvilket som helst av de foregående krav,karakterisert vedat parameterkalkulatoren (106) virker til å behandle frekvensdeler av den første og den andre nedblandingskanal forbundet med diskrete frekvensintervall slik at kombinerte parametre blir utledet for hvert diskrete frekvensintervall.
10. Fremgangsmåte for å fremstille et audioutgangssignal,karakterisert ved: å motta et første audiosignal (110) omfattende en første nedblandingskanal (110a) med informasjon om to eller flere første opprinnelige kanaler og omfattende minst én opprinnelig parameter (110b) forbundet med én av de første opprinnelige kanaler for å beskrive et energiforhold til én av de første opprinnelige kanaler med hensyn til en referansekanal og et andre audiosignal (112) omfattende en andre nedblandingskanal (112a) med informasjon om minst én andre opprinnelig kanal; å utlede en kombinert nedblandingskanal (114) ved å kombinere den første nedblandingskanal (110) og den andre nedblandingskanal (112); å utlede en første kombinert parameter (116a) ved å bruke energien E{Sa(n)} fra den første nedblandingskanal og E{Sb(n)} fra den andre nedblandingskanal og den minst ene opprinnelige parameter, eller alternativt å bruke et energiforhold relativt til en felles referansekanal, hvor den felles referansekanalen er den ene opprinnelige blant de først opprinnelige kanalene og den minst ene andre opprinnelige kanalen, som har den høyeste energien innenfor et gitt tidsintervall, for å beskrive energiforholdet til én av de første opprinnelige kanalene med hensyn til en felles referansekanal, og en andre kombinert parameter (116b) for å beskrive energiforholdet til én av de andre av de første opprinnelige kanalene eller av den minst ene andre opprinnelige kanal med hensyn til en felles referansekanal; og å gi ut audioutgangssignalet (120) omfattende den kombinerte nedblandingskanal (114) og den første (116a) og den andre (116b) kombinerte parameter.
11. Representasjon av tre eller flere audiokanaler (120),karakterisert ved: en kombinert nedblandingskanal (114) som er en kombinasjon av en første nedblandingskanal med informasjon om minst to første opprinnelige kanaler og en andre nedblandingskanal med informasjon om minst én andre opprinnelig kanal; en første parameter (116a) som er avhengig av energien E{Sa (n)} fra den første nedblandingskanal og energien E{SB(n)} fra den andre nedblandingskanal (112b) for å beskrive et energiforhold til én av de minst to første opprinnelige kanaler med hensyn til en referansekanal, og avhengig av minst én opprinnelig parameter (110b) forbundet med én av de første opprinnelige kanalene for å beskrive et energiforhold til én av de første opprinnelige kanalene med hensyn til en referansekanal; og en andre parameter (116b) for å beskrive egenskapen ved en annen kanal av de første opprinnelige kanaler eller egenskapen av den minst ene andre opprinnelige kanal med hensyn til referansekanalen.
NO20090515A 2006-07-07 2009-02-02 Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder NO341259B1 (no)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US81941906P 2006-07-07 2006-07-07
PCT/EP2007/003598 WO2008003362A1 (en) 2006-07-07 2007-04-24 Apparatus and method for combining multiple parametrically coded audio sources
US11/739,544 US8139775B2 (en) 2006-07-07 2007-04-24 Concept for combining multiple parametrically coded audio sources

Publications (2)

Publication Number Publication Date
NO20090515L NO20090515L (no) 2009-02-02
NO341259B1 true NO341259B1 (no) 2017-09-25

Family

ID=38191359

Family Applications (2)

Application Number Title Priority Date Filing Date
NO20090515A NO341259B1 (no) 2006-07-07 2009-02-02 Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder
NO20170534A NO343321B1 (no) 2006-07-07 2017-03-31 Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder

Family Applications After (1)

Application Number Title Priority Date Filing Date
NO20170534A NO343321B1 (no) 2006-07-07 2017-03-31 Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder

Country Status (18)

Country Link
US (1) US8139775B2 (no)
EP (2) EP2038878B1 (no)
JP (1) JP5134623B2 (no)
KR (1) KR101056325B1 (no)
AR (1) AR061241A1 (no)
AT (1) ATE542216T1 (no)
AU (2) AU2007271532B2 (no)
BR (1) BRPI0713236B1 (no)
CA (1) CA2656867C (no)
ES (2) ES2396072T3 (no)
HK (1) HK1124424A1 (no)
IL (1) IL196217A (no)
MX (1) MX2009000086A (no)
NO (2) NO341259B1 (no)
PL (2) PL2112652T3 (no)
RU (1) RU2407227C2 (no)
TW (1) TWI336881B (no)
WO (1) WO2008003362A1 (no)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
DE602007002993D1 (de) * 2006-03-13 2009-12-10 France Telecom Gemeinsame schallsynthese und -spatialisierung
BRPI0714736A2 (pt) * 2006-08-30 2013-05-07 Nec Corp mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes
EP2071564A4 (en) 2006-09-29 2009-09-02 Lg Electronics Inc METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
EP2122613B1 (en) * 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN101632117A (zh) 2006-12-07 2010-01-20 Lg电子株式会社 用于解码音频信号的方法和装置
JP2010518460A (ja) * 2007-02-13 2010-05-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
EP2115739A4 (en) * 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
US9118805B2 (en) * 2007-06-27 2015-08-25 Nec Corporation Multi-point connection device, signal analysis and device, method, and program
WO2009050896A1 (ja) 2007-10-16 2009-04-23 Panasonic Corporation ストリーム合成装置、復号装置、方法
RU2562395C2 (ru) * 2008-03-04 2015-09-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Микширование входящих информационных потоков
WO2009131066A1 (ja) * 2008-04-21 2009-10-29 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
WO2010013450A1 (ja) * 2008-07-29 2010-02-04 パナソニック株式会社 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
FR2944403B1 (fr) * 2009-04-10 2017-02-03 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
CA2781310C (en) * 2009-11-20 2015-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
US8437480B2 (en) * 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102222503B (zh) * 2010-04-14 2013-08-28 华为终端有限公司 一种音频信号的混音处理方法、装置及系统
FR2966277B1 (fr) * 2010-10-13 2017-03-31 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe numerique audio, procede et dispositif de separation de signaux, et signal correspondant
US8809663B2 (en) * 2011-01-06 2014-08-19 Hank Risan Synthetic simulation of a media recording
US9589550B2 (en) * 2011-09-30 2017-03-07 Harman International Industries, Inc. Methods and systems for measuring and reporting an energy level of a sound component within a sound mix
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
BR112014010062B1 (pt) * 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
KR101970589B1 (ko) * 2011-11-28 2019-04-19 삼성전자주식회사 음성 신호 송신 장치, 음성 신호 수신 장치 및 그 방법
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
KR102033985B1 (ko) * 2012-08-10 2019-10-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
US9373335B2 (en) 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
EP2898506B1 (en) 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9093064B2 (en) 2013-03-11 2015-07-28 The Nielsen Company (Us), Llc Down-mixing compensation for audio watermarking
EP2790419A1 (en) * 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
US10049683B2 (en) 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050062843A1 (en) * 2003-09-22 2005-03-24 Bowers Richard D. Client-side audio mixing for conferencing

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW419645B (en) * 1996-05-24 2001-01-21 Koninkl Philips Electronics Nv A method for coding Human speech and an apparatus for reproducing human speech so coded
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
DE602004010188T2 (de) * 2004-03-12 2008-09-11 Nokia Corp. Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
ES2338117T3 (es) 2004-05-17 2010-05-04 Nokia Corporation Codificacion de audio con diferentes longitudes de trama de codificacion.
US8150042B2 (en) 2004-07-14 2012-04-03 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US7853022B2 (en) * 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
JP5017121B2 (ja) * 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050062843A1 (en) * 2003-09-22 2005-03-24 Bowers Richard D. Client-side audio mixing for conferencing

Also Published As

Publication number Publication date
JP5134623B2 (ja) 2013-01-30
AU2011200669B2 (en) 2012-06-28
US8139775B2 (en) 2012-03-20
BRPI0713236A2 (pt) 2013-04-02
US20080008323A1 (en) 2008-01-10
RU2009104047A (ru) 2010-08-20
AU2007271532A1 (en) 2008-01-10
ES2396072T3 (es) 2013-02-19
PL2112652T3 (pl) 2013-04-30
ES2380059T3 (es) 2012-05-08
KR20090025332A (ko) 2009-03-10
TW200818122A (en) 2008-04-16
AU2011200669A1 (en) 2011-03-10
EP2112652A1 (en) 2009-10-28
EP2038878A1 (en) 2009-03-25
EP2038878B1 (en) 2012-01-18
ATE542216T1 (de) 2012-02-15
NO343321B1 (no) 2019-01-28
MX2009000086A (es) 2009-01-23
WO2008003362A1 (en) 2008-01-10
BRPI0713236B1 (pt) 2020-03-10
RU2407227C2 (ru) 2010-12-20
TWI336881B (en) 2011-02-01
IL196217A0 (en) 2009-09-22
JP2009543142A (ja) 2009-12-03
CA2656867C (en) 2013-01-08
HK1124424A1 (en) 2009-07-10
KR101056325B1 (ko) 2011-08-11
NO20090515L (no) 2009-02-02
CA2656867A1 (en) 2008-01-10
NO20170534A1 (no) 2009-02-02
AU2007271532B2 (en) 2011-03-17
AR061241A1 (es) 2008-08-13
IL196217A (en) 2013-06-27
EP2112652B1 (en) 2012-11-07
PL2038878T3 (pl) 2012-06-29

Similar Documents

Publication Publication Date Title
NO20170534A1 (no) Apparat og fremgangsmåte for å kombinere multiple parametrisk kodede audiokilder
AU2007312597B2 (en) Apparatus and method for multi -channel parameter transformation
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
AU2007312598A1 (en) Enhanced coding and parameter representation of multichannel downmixed object coding
JP2011501544A (ja) ダウンミックスを用いたオーディオコーディング
CN101506875B (zh) 用于组合多个参数编码的音频源的设备和方法
Engdegård et al. MPEG spatial audio object coding—the ISO/MPEG standard for efficient coding of interactive audio scenes