NO339958B1

NO339958B1 - Anordning og fremgangsmåte for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm

Info

Publication number: NO339958B1
Application number: NO20075004A
Authority: NO
Inventors: Harald Popp; Jan Plogsties; Harald Mundt
Original assignee: Fraunhofer Ges Forschung
Priority date: 2005-03-04
Filing date: 2007-10-03
Publication date: 2017-02-20
Also published as: TW200701823A; ES2340796T3; JP2008532395A; HK1111855A1; EP1854334B1; IL185452A0; EP2094031A2; EP2094031A3; NO20075004L; CN101133680A; AU2006222285B2; CN101133680B; WO2006094635A1; DE502006006444D1; BRPI0608036A2; DE102005010057A1; BRPI0608036B1; JP4987736B2; US20070297616A1; CA2599969A1

Description

Den foreliggende oppfinnelse angår flerkanals lydteknologi og især flerkanals lydanvendelser i forbindelse med hodetelefonteknologier.

Den internasjonale patentsøknad WO 99/49574 og WO 99/14983 offentliggjør lydsignalprosesseringsteknologier for å drive et par av motsatt anordnet hodetelefon-høyttalere slik at en kan få romlig sansning av lydbilde via de to hodetelefoner, noe som ikke bare gir en stereofremstilling men også en flerkanalfremstilling. Lytteren vil følgelig få, via hans eller hennes hodetelefoner, en romlig sansning av et lydstykke som i beste fall er likt hans eller hennes romlige sansning hvis brukeren skulle være i et gjengivelsesrom eksempelvis utstyrt med et 5,1 lydsystem. For hver hodetelefon-høyttaler er med dette formål hver kanal av flerkanallydstykket eller flerkanallyd-datastrømmen tilført et separat filter, som er illustrert i fig. 2, hvorpå de respektive filtrerte kanaler som hører sammen er addert, noe som vil bli illustrert i det følgende.

På en venstre side i fig. 2 fins flerkanalsinngangene 20 som sammen fremstiller en flerkanalsfremstilling av lydstykket eller lyddatastrømmen. Slik et scenario er skjematisk vist som eksempel i fig. 10. Fig. 10 viser et gjengivelsesrom 200 hvor et såkalt 5,1 lydsystem er anordnet. 5,1 lydsystemet omfatter en senterhøyttaler 201, en fremre venstre høyttaler 202, en fremre høyre høyttaler 203, en bakre venstre høyttaler 204 og en bakre høyre høyttaler 205. Et 5,1 lydsystem omfatter en ekstra "subwoofer" 206, som også er omtalt som lavfrekvent forsterkningskanal. I det såkalte "sweet spot" av gjengivelsesrommet 200 er det en lytter 207 som bærer en hodetelefon 208 omfattende en venstre hodetelefonhøyttaler 209 og en høyre hodetelefonhøyttaler 210.

Prosesseringsmidler vist i fig. 2 er fremstilt for å filtrere hver kanal 1, 2, 3 av flerkanalinngangene 20 med et filter HiL som beskriver lydkanalen fra høyttaleren til den venstre høyttaler 209 i fig. 10, og ytterligere å filtrere den samme kanal med et filter H;Rsom representerer lyden fra en av de fem høyttalere til det høyre øre eller den høyre høyttaler 210 av hodetelefon 208.

For eksempel, hvis kanal 1 i fig. 2 var den fremre venstre kanal avgitt av høyt-taleren 202 i fig. 10, ville filteret HiL representere kanalen indikert av en stiplet linje 212, mens filteret H;Rville representere kanalen indikert av en stiplet linje 213. Den venstre hodetelefonhøyttaler 209 mottar ikke bare den direkte lyd, men også tidlige refleksjoner fra en kant av gjengivelsesrommet, noe som er indikert som eksempel i fig. 10 ved en stiplet linje 214, og selvfølgelig også sene refleksjoner avgitt som en diffus gjenklang.

Slik en filterfremstilling er illustrert i fig. 11. Især viser fig. 11 et skjematisk eksempel på en impulsrespons av et filter slik som for eksempel av filteret HiL i fig. 2. Den direkte eller primære lyd illustrert i fig. 11 ved linjen 212 er representert ved en topp ved filterets begynnelse, mens tidlige refleksjoner, som er illustrert som eksempel i fig. 10 ved 214, er gjengitt ved et senterområde med flere (diskrete) mindre topper i fig. 11. Den diffuse gjenklang er typisk ikke lenger oppløst i individuelle topper siden lyden av høyttaleren 202 i prinsipp er reflektert vilkårlig ofte hvor energien selvfølgelig avtar med hver refleksjon og ekstra forplantningsdistanse som er illustrert ved den av-tagende energi i den bakre del, som i fig. 11 er henvist som en "diffus gjenklang".

Følgelig omfatter hvert filter i fig. 2 en filterimpulsrespons som har en omtrentlig profil som er vist ved den skjematiske pulsrespons illustrert i fig. 11. Det er opplagt at den individuelle filterimpulsrespons vil avhenge av gjengivelsesrommet, posisjonen av høyttalerne, mulig dempningsegenskaper i gjengivelsesrommet ved for eksempel på grunn av tilstedeværelsen av flere personer eller på grunn av møblement i gjengivelsesrommet, og ideelt sett også på karakteristikkene av de individuelle høyt-talere 201 til 206.

Det faktum at signalene fra alle høyttalerne er overlagret ved lytterens 207 øre er illustrert av addererne 22 og 23 i fig. 2. Hver kanal er derfor filtrert med et korresponderende filter for det venstre øre for så simpelthen å addere opp utgangs-signalene av filtrene som er bestemt for det venstre øre for å oppnå hodetelefon-utgangssignalet for det venstre øre L. Analogt er et tillegg ved addereren 23 for det høyre øre eller den høyre hodetelefonhøyttaler 210 i fig. 10 utført for å oppnå hode-telefonsutgangssignalet for det høyre øre ved overlagring av alle hodetelefonssignalene filtrert av et korresponderende filter for det høyre øre.

På grunn av det faktum at, i tillegg til den direkte lyd, det også er tidlige refleksjoner og især en diffus gjenklang som er av spesiell høy viktighet for romsansningen slik at tonen ikke høres syntetisk eller "merkelig" ut men gir lytteren inntrykket av at han eller hun faktisk sitter i et konsertrom med dets akustiske karakteristikker, vil alle impulsresponser av de individuelle filtere 21 være av anselige lengder. Konvolusjonen av hver individuell flerkanal av flerkanalfremstillingen med to filtere resulterer allerede i en betydelig beregningsoppgave. Siden to filtere er krevet for hver individuell flerkanal, dvs. en for det venstre øre og en annen for det høyre øre, når "subwoofer"-kanalen også er behandlet separat, er et totalt antall av tolv helt forskjellige filtere krevet for en hodetelefonsgjengivelse av en 5,1 flerkanalfremstilling. Som vil bli klart av fig. 11 har alle filtere en svært lang impulsrespons som er i stand til ikke bare å ta hensyn til den direkte lyd men også tidlige refleksjoner og diffuse gjenklanger, som strengt tatt kun gir et lydstykke den sanne lydgjengivelse og gode romlige inntrykk.

For å kunne sette det velkjente konsept ut i praksis er, i tillegg til en flerkanal-spiller 220 som vist i fig. 10, svært komplisert virtuell lydprosessering 222 påkrevet som tilveiebringer signalene for de to høyttalere 209 og 210 fremstilt ved linjene 224 og 226 i fig. 10.

Herre, J. et al.: "MP3 Surround: Efficient and Compatible Coding of MultiChannel Audio", Audio Engineering Society, 116. konvensjon, forhåndstrykk, sidene 1-14, Mai 2004 beskriver teknologi som gjør det mulig å gi en representasjon av flerkanals lyd med bitrater som er sammenlignbare med det som i dag brukes til å kode stereomateriale

Hodetelefonsystemer for generering av en flerkanals hodetelefonlyd er kompli-serte, uhåndterlige og dyre, grunnet den høye regnekraft, det høye strømbehov for den høye regnekraft som er påkrevet og det høye driftslagringsbehov for evalueringene som skal utføres av impulsresponsen og det store volum eller dyre elementer for spilleren koplet dertil. Anvendelser av denne type er følgelig knyttet til lydkort i hjemme-pc eller lydkort i bærbare datamaskiner eller hjemmestereosystemer.

Spesielt forblir flerkanals hodetelefonlyder utilgjengelige for det kontinuerlig økte marked av mobile spillere slik som for eksempel mobile cd-spillere eller særlig maskinvarespillere, siden de påkrevde beregninger for filtrering av flerkanaler med eksempelvis tolv forskjellige filtere ikke kan realiseres i dette prissegment verken med hensyn på prosessingsmidler eller med hensyn til de gjeldende behov for typiske batte-ridrevne anordninger. Dette henviser til et prissegment ved bunn-(lavere)-enden av skalaen. Imidlertid, nettopp dette prissegment er økonomisk svært interessant på grunn av de høye antall av stykker.

Formålet med den foreliggende oppfinnelse er å tilveiebringe et effektivt signalprosesseringskonsept som tillater en hodetelefonsgjengivelse av flerkanals-kvalitet på enkle gjengivelsesanordninger.

Dette formål er oppnådd ved en anordning for generering av et kodet stereosignal ifølge krav 1 eller ved en fremgangsmåte for generering av et kodet stereosignal ifølge krav 10 eller ved et datamaskinprogram ifølge krav 11.

Den foreliggende oppfinnelse er basert på de oppdagelser at høykvalitet og attraktive flerkanalshodetelefonlydene kan bli gjort tilgjengelig for alle tilgjengelige spillere slik som for eksempel cd-spillere eller maskinvarespillere ved å utsette en fler-kanalsgjengivelse av et lydstykke eller lyddatastrøm, dvs. for eksempel en 5,1 gjengivelse av et lydstykke, for hodetelefonsignalprosessering utenfor en maskinvarespiller, dvs. for eksempel i en datamaskin fra en leverandør med høy beregningskraft. Ifølge oppfinnelsen er resultatet av en hodetelefonsignalprosessering imidlertid ikke simpelthen spilt men levert til en typisk lydstereokoder som deretter genererer et kodet stereosignal fra den venstre hodetelefonskanal og den høyre hodetelefonskanal.

Som ethvert annet kodet stereosignal som ikke omfatter en flerkanalgjengivelse kan dette kodede stereosignal så bli tilført maskinvarespilleren eller for eksempel en mobil cd-spiller i form av en cd. Gjengivelses- eller omspillingsanordningen vil så gi brukeren en hodetelefonflerkanalslyd uten noe ekstra ressurser eller midler som må adderes til anordninger som allerede eksisterer. Det oppfinneriske er at resultatet av hodetelefonsignalprosesseringen, dvs. det venstre og høyre hodetelefonsignal, ikke er gjengitt i en hodetelefon som har vært tilfelle i tidligere kjent teknikk, men kodet og utmatet som kodet stereodata.

Slik en utgang kan være lagring, transmisjon eller liknende. Slik en fil med kodet stereodata kan deretter enkelt blir levert til enhver gjengivelsesanordning som er utviklet for stereogjengivelse uten at brukeren må utføre noen endringer i hans anordning.

Det oppfinneriske konsept av å generere et kodet stereosignal fra resultatet av hodetelefonsignalprosesseringen tillater derfor flerkanalgjengivelse, noe som tilveiebringer en betydelig forbedret og mer reell kvalitet for brukeren, og kan bli anvendt på alle enkle og utbredte, og i fremtiden endog mer utbredte, maskinvarespillere.

I en foretrukket realisering av den foreliggende oppfinnelse er utgangspunktet en kodet flerkanalsfremstilling, dvs. en parametrisk fremstilling som omfatter en eller typisk to basiskanaler og ytterligere omfatter parametriske data for å generere flerkanalene av flerkanalfremstillingen på basisen av basiskanalene og de parametriske data. Siden en frekvensdomenebasert fremgangsmåte for flerkanalsdekoding er foretrukket er hodetelefonsignalprosesseringen ifølge oppfinnelsen ikke utført i tidsdomenet ved konvolusjon av tidssignalet ved en impulsrespons, men i frekvensdomenet ved multiplikasjon av filtertransmisjonsfunksjonen.

Dette tillater minst en retransformasjon før hodetelefonsignalprosesseringen skal lagres og er særlig fordelaktig når den påfølgende stereokoder også opererer i frekvensdomenet slik at stereokodingen av hodetelefonstereosignalet, uten noensinne å måtte gå til tidsdomenet, kan også skje uten å gå til tidsdomenet. Prosesseringen fra flerkanalfremstillingen til det kodede stereosignal uten at tidsdomenet tar del, eller ved minst et redusert antall av transformasjoner, er interessant nok ikke bare med hensyn på beregningstidseffektiviteten, men setter en grense på kvalitetstap siden færre proses-seringsnivå vil introdusere færre artefakter i lydsignalet.

Særlig i blokkbaserte fremgangsmåter som utfører kvantisering som tar hensyn til en psykoakustisk maskeringsgrenseverdi, noe som er foretrukket for stereokoderen, er det viktig å forhindre så mange tandemkodingsartefakter som mulig.

I en særlig foretrukket realisering av den foreliggende oppfinnelse er en BCC-fremstilling med én eller fortrinnsvis to basiskanaler anvendt som en flerkanalfremstilling. Siden BCC-fremgangsmåten opererer i frekvensdomenet er flerkanalene ikke transformert til tidsdomenet etter syntese, noe som vanligvis er gjort i en BCC-dekoder. I stedet er spektralfremstillingen av flerkanalene i formen av blokker anvendt og utsatt for hodetelefonsignalprosesseringen. For dette er transformasjonsfunksjonene av filtrene, dvs. Fourier-transformene av impulsresponsene, anvendt for å utføre en multiplikasjon av spektralfremstillingen av flerkanalene ved filtertransformasjonsfunk-sjonene. Når impulsresponsene av filtrene er med tiden lengre enn en blokk av spektralkomponenter ved utgangen av BCC-dekoderen er en blokkliknende filter-prosessering foretrukket hvor impulsresponsene av filtrene er separert i tidsdomenet og er transformert blokk for blokk for så å kunne utføre korresponderende spektrum-veiinger som er nødvendig for målinger av denne type, slik som det for eksempel er offentliggjort i WO 94/01933.

Foretrukne realiseringer av foreliggende oppfinnelse vil i det følgende bli gitt i mer detalj med henvisning til de vedlagte tegninger, hvor: fig. 1 viser et blokkretsskjema av den oppfinneriske anordning for generering av et kodet stereosignal, fig. 2 er en detaljert illustrasjon av en iverksetting av hodetelefonsignalprosesseringen av fig. 1, fig. 3 viser en velkjent fellesstereokoder for generering av kanaldata og parametrisk flerkanalinformasjon, fig. 4 er en illustrasjon av en plan for å bestemme ICLD-, ICTD- og ICC-parametere for BCC-koding/dekoding, fig. 5 er en blokkskjemaillustrasjon av en BCC-koder/dekoderkjede, fig. 6 viser et blokkskjema av en iverksetting av BCC-synteseblokken fra fig. 5, fig. 7 viser kaskade mellom en flerkanaldekoder og hodetelefonsignalprosessering uten noe transformasjon til tidsdomenet, fig. 8 viser kaskade mellom hodetelefonsignalprosessering og en stereokoder uten noe transformasjon til tidsdomenet, fig. 9 viser et prinsippblokk-skjema av en foretrukket stereokoder, fig. 10 er en prinsippillustrasjon av et gjen-givelsesscenario for å bestemme flerfunksjonene fra fig. 2, og fig. 11 er en prinsippillustrasjon av en forventet impulsrespons av et filter som er bestemt ifølge fig. 10.

Fig. 1 viser et prinsipielt blokkretsskjema av en oppfinnerisk anordning for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm. Stereosignalet omfatter, i en ukodet form, en ukodet første stereokanal 10a og en ukodet andre stereokanal 10b og er generert fra en flerkanalgjengivelse av lydstykke eller lyddata-strømmen, hvor flerkanalgjengivelsen omfatter informasjon om mer enn to flerkanaler. Som vil bli forklart senere kan flerkanalgjengivelsen være i en ukodet eller en kodet form. Hvis flerkanalgjengivelsen er i en ukodet form vil den omfatte tre eller flere flerkanaler. Med en foretrukket anvendelses scenario omfatter flerkanalgjengivelsen fem kanaler og en "subwoofer"-kanal.

Imidlertid, hvis flerkanalgjengivelsen er i en kodet form vil denne kodede form typisk omfatte en eller flere basiskanaler så vel som parametere for syntetisering av de tre eller flere flerkanaler fra den ene eller to basiskanaler. En flerkanaldekoder 11 er følgelig et eksempel på middel for å tilveiebringe de flere enn to flerkanaler fra flerkanalgjengivelsen. Imidlertid, flerkanalgjengivelsen allerede er i en ukodet form, dvs. for eksempel formen av 5+1 PCM-kanaler, korresponderer middel for tilveiebringing en inngangsterminal for middel 12 for utføring av hodetelefonsignalprosessering for å generere det ukodede stereosignal med den ukodede første stereokanal 10a og den ukodede andre stereokanal 1 Ob.

Fortrinnsvis er middel 12 for å utføre hodetelefonsignalprosessering fremstilt for å evaluere flerkanalene av flerkanalgjengivelsen hver ved en første filterfunksjon for den første stereokanal og ved en andre filterfunksjon for den andre stereokanal og addere de respektive evaluerte flerkanaler for å oppnå den ukodede første stereokanal og den andre ukodede stereokanal, som er illustrert med henvisning til fig. 2. Ned-strøms av middel 12 for utføring av hodetelefonsignalprosesseringen er en stereokoder 13 som er fremstilt for å kode den første ukodede stereokanal 10a og den andre ukodede stereokanal 10b for å oppnå det kodede stereosignal ved en utgang 14 av stereokoderen 13. Stereokoderen utfører en datahastighetsreduksjon slik at en datahastighet som er krevet for overføring av det kodede stereosignal er mindre enn datahastighet som er krevet for overføring av det ukodede stereosignal.

Ifølge oppfinnelsen er et konsept oppnådd som tillater tilførsel av en flerkanal-tone, som også er henvist til som "surround", til stereohodetelefonene via enkle spillere slik som for eksempel maskinvarespillere.

Summen av disse kanaler kan for eksempel bli dannet ved enkel hodetelefonsignalprosessering for å oppnå utgangskanalene for stereodataene. Forbedrede fremgangsmåter fungerer med mer komplekse algoritmer som igjen oppnår en forbedret gjengivelseskvalitet.

Det skal bemerkes at det oppfinneriske konsept tillater de beregningskrevende trinn for flerkanalsdekoding og for utføring av hodetelefonsignalprosesseringen ikke i selve spilleren men å bli utført eksternt. Resultatet av dette oppfinneriske konsept er en kodet stereofil som er for eksempel en MP3-fil, en AAC-fil, en HE-AAC-fil eller noen annen stereofil.

I andre realiseringer kan flerkanaldekodingen, hodetelefonsignalprosesseringen og stereokodingen bli utført på forskjellige anordninger siden henholdsvis utgangs-dataen og inngangsdataen av de individuelle blokker kan enkelt bli portert og bli generert og lagret på en standardisert måte.

I det følgende vil henvisning bli gjort til fig. 7 som viser en foretrukket realisering av foreliggende oppfinnelse hvor flerkanaldekoderen 11 omfatter en filterbank eller FFT-funksjon slik at flerkanalgjengivelsen er tilveiebrakt i frekvensdomenet. Især er de individuelle flerkanaler generert som blokker av spektrale verdier for hver kanal. På en oppfinnerisk måte er hodetelefonsignalprosessering ikke utført i tidsdomenet ved konvolusjon av de temporale kanaler med filterimpulsresponsene, men en multiplikasjon av frekvensdomenegjengivelsen av flerkanalene ved en spektral gjengivelse av filterimpulsresponsen er utført. Et ukodet stereosignal er oppnådd ved utgangen av hodetelefonsignalprosesseringen, som imidlertid ikke er i tidsdomenet men omfatter en venstre og en høyre stereokanal, hvor slike en stereokanal er gitt som en sekvens av blokker av spektralverdier, der hver blokk av spektralverdier representerer et korttids-spektrum av stereokanalen.

I realiseringen vist på fig. 8 er hodetelefonsignalprosesseringsblokken på inngangssiden forsynt med enten tidsdomene- eller frekvensdomenedata. På utgangssiden er de ukodede stereokanaler generert i frekvensdomenet, dvs. igjen som en sekvens av blokker av spektralverdier. En stereokoder som er basert på en transformasjon, dvs. som prosesserer spektralverdier uten en frekvens/tidskonvertering og en påfølgende tids/frekvenskonvertering som er nødvendig mellom hodetelefonsignalprosessering 12 og stereokoderen 13, er foretrukket som stereokoderen 13 i dette tilfelle. På utgangssiden utmater stereokoderen 13 så en fil med det kodede stereosignal som, i tillegg til sideinformasjon, omfatter en kodet form av spektralverdier.

I en særlig foretrukket realisering av den foreliggende oppfinnelse er en kontinuerlig frekvensdomeneprosessering utført på veien fra flerkanalgjengivelsen ved inngangen av blokk 11 i fig. 1 til den kodede stereofil ved utgangen 14 av midlene i fig 1, uten at en transformasjon til tidsdomenet og muligens en retransformasjon til frekvensdomenet må finne sted. Når en MP3-koder eller en AAC-koder er anvendt som stereokoder vil det være foretrukket å transformere Fourier-spekteret ved utgangen av hodetelefonsignalprosesseringsblokken til et MDCT-spektrum. Følgelig er det sikret ifølge oppfinnelsen at faseinformasjon som er krevet i en presis form for konvolusjon/evalueringen av kanalene i hodetelefonsignalprosesseringsblokken er konvertert til MDCT-gjengivelsen som ikke opererer i slik en fasekorrekt måte, slik at midler for transformering fra tidsdomenet til frekvensdomenet, dvs. til MDCT-spekteret, ikke er krevet for stereokoderen, i motsetning til en normal MP3-koder eller en normal AAC-koder.

Fig. 9 viser et generelt blokkretsskjema for en foretrukket stereokoder. Stereokoderen omfatter på inngangssiden en felles stereomodul 15 som fortrinnsvis bestemmer på en adaptiv måte om en felles stereokoder, for eksempel formen av en senter/sidekoding, tilveiebringer en høyere kodingsvinning enn en separat prosessering på de venstre og høyre kanaler. Den felles stereomodul 15 kan videre fremstilles for å utføre en intensitetsstereokoding, hvor en intensitetsstereokoding tilveiebringer, spesielt ved høyere frekvenser, en vesentlig kodingsvinning uten at hørbare artefakter opp-står. Utgangen av den felles stereomodul 15 er deretter prosessert videre ved anvendelse av ulike andre redundansreduserende målinger slik som for eksempel TNS-filtrering, støyerstatning, etc, for så å forsyne resultatene til en kvantiserer 16 som oppnår en kvantisering av spektralverdiene ved anvendelse av en psykoakustisk maskeringsgrenseverdi. Kvantisererens trinnstørrelse er her valgt slik at støyen introdusert ved kvantisering forblir under den psykoakustiske maskeringsgrenseverdi slik at en datahastighetsreduksjon er oppnådd uten at forvrengningene introdusert ved tapskvanti-seringen er hørbare. Nedstrøms av kvantisereren 16 er en entropikoder 17 som utfører tapsfri entropikoding av de kvantiserte spektralverdier. Ved utgangen av entropi-koderen er det kodede stereosignal som, i tillegg til de entropikodede spektralverdier, omfatter sideinformasjon som er påkrevet for dekoding.

I det følgende vil henvisning bli gjort til foretrukne iverksettinger av flerkanaldekoderen og til foretrukne flerkanalillustrasjoner ved anvendelse av fig. 3 til 6.

Det fins flere teknikker for å redusere mengden av data påkrevet for overføring av et flerkanallydsignal. Slike teknikker er også kalt felles stereoteknikker. For denne hensikt er henvisning gjort til fig. 3 som viser en felles stereoanordning 60. Denne anordning kan være en anordning som iverksetter for eksempel intensitetsstereo (IS) teknikken eller den binaurale "cue" kodingsteknikk (BCC). Slik en anordning mottar generelt minst to kanaler CH1, CH2, ..., CHn som inngangssignal og utmater en enkel bærekanal og parametrisk flerkanalinformasjon. De parametriske data er definert slik at et overslag av en originalkanal (CH1, CH2, ..., CHn) kan beregnes i en dekoder.

Normalt vil bærekanalen omfatte subbåndutvalg, spektralkoeffisienter, tidsdomeneutvalg, etc, som tilveiebringer en relativ fin gjengivelse av det underliggende signal, mens de parametriske data ikke omfatter slike utvalg eller spektrale koeffisienter, men kontrollparametere for å kontrollere en viss rekonstruksjonsalgoritme slik som for eksempel veiing ved multiplikasjon, tidsforskyvning, frekvensforskyvning, etc. Den parametriske flerkanalinformasjon omfatter følgelig en relativ anslagsvis gjengivelse av signalet eller det tilknyttede signal. Uttrykt i tall er mengden av data som er påkrevet ved en bærekanal i området 60 til 70 kbits/s, mens mengden av data påkrevet ved parametrisk sideinformasjon for en kanal er i området fra 1,5 til 2,5 kbits/sekund. Det skal bemerkes at tallene ovenfor gjelder komprimerte data. En ikke-komprimert CD-kanal krever selvfølgelig omtrentlig tifoldige datahastigheter. Et eksempel på parametriske data er de velkjente skaleringsfaktorer, intensitetsstereoinformasjon eller BCC-parametere, som vil bli beskrevet under.

Intensitetsstereokodmgsteknikken er beskrevet i AES Preprint 3799 kalt "Intensity Stereo Coding" av J. Herre, K.H. Brandenburg, D. Lederer, februar 1994, Amsterdam. Konseptet for intensitetsstereo er generelt basert på en hovedaksetrans-formering som skal anvendes på data fra de to stereofoniske lydkanaler. Hvis flest datapunkter er konsentrert rundt den første hovedakse kan kodingsvinningen oppnås ved rotasjon av begge signaler ved en viss vinkel før kodingen skjer. Dette kan imidlertid ikke alltid anvendes på reelle stereofoniske gjengivelsesteknikker. Denne teknikk er følgelig endret i det at den andre ortogonalkomponent er utelukket fra å bli overført i bitstrømmen. De rekonstruerte signaler for de venstre og høyre kanaler består følgelig av forskjellige veiede og skalerte versjoner av det samme overførte signal. Likevel avviker de rekonstruerte signaler i amplitude, men de er identiske med hensyn på deres faseinformasjon. Energitidsomhylningene av begge originallydkanaler er imidlertid oppretthold ved den selektive skaleringsoperasjon som typisk virker på en frekvensselektiv måte. Dette korresponderer til menneskelig lydsansning ved høye frekvenser hvor den dominante rominformasjon er bestemt ved energiomhylningene.

I tillegg er i praktiske iverksettinger det overførte signal, dvs. bærerkanalen, produsert fra sumsignalet av den venstre kanal og den høyre kanal i stedet for rotasjon av begge komponenter. Denne prosessering, dvs. generering av intensitetsstereopara-metere for utføring av skaleringsoperasjoner, er dessuten utført på en frekvensselektiv måte, dvs. uavhengig for hvert skaleringsfaktorbånd, dvs. for hver koderfrekvensparti-sjon. Begge kanaler er fortrinnsvis kombinert- eller "bærer"-kanal og, i tillegg til den kombinerte kanal, intensitetsstereoinformasjonen. Intensitetsstereoinformasjonen avhenger av energien av den første kanal, energien av den andre kanal eller energien av den kombinerte kanal.

BCC-teknikken er beskrevet i AES Convention Paper 5574 kalt "Binaural Cue Coding applied to stereo and multichannel audio compression" av T. Faller, F. Baumgarte, mai 2002, Munchen. I BCC-koding er et antall av lydinngangskanaler konvertert til en spektralfremstilling ved anvendelse av en DFT-basert transform med overlappende vinduer. Det resulterende spektrum er delt inn i ikke-overlappende deler, hvor hver har en indeks. Hver partisjon har en båndvidde som er proporsjonal med den ekvivalente høyrevinklede båndvidde (ERB). Inter-kanalnivådifferansene (engelsk: inter-channel level differences, ICLD) og inter-kanaltidsdifferansene (engelsk: inter-channel time differences, ICTD) er bestemt for hver partisjon og for hver ramme k. ICLD og ICTD er kvantiserte og kodede for til sist å oppnå en BCC-bitstrøm som sideinformasjon. Inter-kanalnivådifferansene og inter-kanaltidsdifferansene er gitt for hver kanal med hensyn på en referansekanal. Parametrene er deretter beregnet i over-ensstemmelse med forhåndsbestemte formler som avhenger av de spesielle partisjoner av signaler som skal prosesseres.

På dekodersiden mottar typisk dekoderen et monosignal og BCC-bitstrømmen. Monosignalet er transformert til frekvensdomenet og matet inn i en romlig synteseblokk som også mottar dekodede ICLD- og ICTD-verdier. I den romlige synteseblokk er BCC-parametrene (ICLD og ICTD) anvendt for å utføre en veiingsoperasjon av monosignalet, og syntetisere flerkanalsignalene som, etter en frekvens/tids-konvertering, representerer en rekonstruksjon av det originale flerkanallydsignal.

I tilfelle av BCC er den felles stereomodul 60 virksom for utmating av kanalsideinformasjonen slik at de parametriske kanaldata er kvantiserte og kodede ICLD- eller ICTD-parametere, hvor en av de originale kanaler er anvendt som en referansekanal for koding av kanalsideinformasjonen.

Bærersignalet er normalt dannet av summen av de deltagende originalkanaler.

Teknikkene ovenfor tilveiebringer selvfølgelig kun en monofremstilling for en dekoder som kun kan prosessere bærerkanalen, men som ikke er i stand til å prosessere parametriske data for generering av en eller flere tilnærminger av flere enn en inn-gangskanal.

BCC-teknikken er også beskrevet i US patentsøknadene US 2003/0219130 Al, US 2003/0026441 Al og US 2003/0035553 Al. I tillegg er referanse gjort til den sak-kyndige publikasjon "Binaural Cue Coding. Part II: Schemes and Applications" ved T. Faller og F. Baumgarte, IEEE Trans. On Audio and Speech Proe, bind 11, nr. 6, november 2003.

I det følgende vil en typisk BCC-plan for flerkanallydkoding bli illustrert I større detalj ved henvisning til fig. 4 til 6.

Fig. 5 viser slik en BCC-plan for koding/overføring av flerkanallydsignaler. Flerkanallydinngangssignalet ved en inngang 110 av en BCC-koder 112 er blandet ned i en såkalt nedblandingsblokk 114. Med dette eksempel er det originale flerkanalsignal ved inngangen 110 et 5-kanal surround-signal med en fremre venstre kanal, en fremre høyre kanal, en venstre surround-kanal, en høyre surround-kanal og en senterkanal. I den foretrukne realisering av den foreliggende oppfinnelse genererer nedblandings-blokken 114 et summeringssignal ved hjelp av en enkel addering av disse fem kanalene inn i et monosignal.

Andre nedblandingsplaner er vist i feltet slik at ved anvendelse av et flerkanalsinngangssignal er en nedblandingskanal med en enkel kanal oppnådd.

Denne enkle kanal er utmatet på en summeringssignallinje 115. Sideinformasjon oppnådd fra BCC-analyseblokken 116 er utmatet på en sideinformasjonslinje 117.

Inter-kanalnivådifferanser (ICLD) og inter-kanaltidsdifferanser (ICTD) er beregnet i BCC-analyseblokken som illustrert ovenfor. BCC-analyseblokken 116 er nå også i stand til å beregne inter-kanalkorrelasjonsverdier (engelsk: inter-channel correlation values, ICC-verdier). Summeringssignalet og sideinformasjon er overført til en BCC-dekoder 120 i et kvantisert og kodet format. BCC-dekoderen atskiller det overførte summeringssignal inn i et antall av subbånd og utfører skaleringer, for-sinkelser og videre prosesseringstrinn for å tilveiebringe subbåndene av flerkanalslyd-kanalene som skal utmates. Denne prosessering er utført slik at ICLD, ICTD og ICC-parametrene (cues) av et rekonstruert flerkanalsignal ved utgangen 121 stemmer over-ens med de korresponderende "cues" for det originale flerkanalsignal ved utgangen 110 i BCC-koderen 112. For denne hensikt omfatter BCC-dekoderen 120 en BCC-synteseblokk 122 og en sideinformasjonsprosesseringsblokk 123.

I det følgende vil det interne oppsett av BCC-synteseblokken 122 bli illustrert ved henvisning til fig. 6. Summeringssignalet på linjen 115 er levert til en tids/frekvenskonverteringsenhet eller filterbank FB 125. Ved utgangen av blokk 125 er et antall N av subbåndsignaler eller, i et ekstremt tilfelle, en blokk av spektralkoeffisienter når lydfilterbanken 125 utfører en l:l-transformasjon, dvs. en transformasjon som genererer N spektrale koeffisienter fra N tidsdomeneutvalg.

BCC-synteseblokken 122 omfatter videre et forsinkelsestrinn 126, et nivå-endringstrinn 127, et korrelasjonsprosesseringstrinn 128 og et inversfilterbanktrinn IFB 129. Ved utgangen av trinn 129 kan det rekonstruerte flerkanallydsignal med for eksempel fem kanaler i tilfelle av et femkanal-surround-system utmates til et sett av høyttalere 124, som illustrert i fig. 5 eller fig. 4.

Inngangssignalet (sn) er konvertert til frekvensdomenet eller filterbankdomenet ved hjelp av elementet 125. Signalet utmatet av elementet 125 er kopiert slik at flere versjoner av det samme signal er oppnådd, som illustrert ved kopinoden 130. Antallet av versjoner av det originale signal er lik antallet av utgangskanaler i utgangssignalet. Deretter er hver versjon av originalsignalet ved noden 130 utsatt for en viss forsinkelse di, d2, ..., du- Forsinkelsesparametrene er beregnet ved sideinformasjonsprosesseringsblokken 123 i fig. 5 og avledet fra inter-kanaltidsdifferansene slik som de ble beregnet ved BCC-analyseblokken 116 i fig. 5.

Det samme gjelder multiplikasjonsparametrene ai, a2, ..., a;, ..., aN, som også er beregnet av sideinformasjonsprosesseringsblokken 123 basert på inter-kanalnivådifferansene slik som de ble beregnet av BCC-analyseblokken 116. ICC-parametrene beregnet av BCC-analyseblokken 116 er anvendt for å kontrollere funksjonaliteten av blokk 128 slik at visse korrelasjoner mellom de for-sinkede og nivåmanipulerte signaler er oppnådd ved utgangene av blokk 128. Det skal bemerkes her at rekkefølgen av trinnene 126, 127, 128 kan avvike fra rekkefølgen vist i fig. 6.

Det skal også bemerkes at i en rammevis prosessering av lydsignalet er BCC-analysen også utført rammevis, dvs. midlertidig variable, og videre at en frekvensvis BCC-analyse er oppnådd som kan sees av filterbankinndelingen i fig. 6. Dette betyr at BCC-parametrene er oppnådd for hvert spektralbånd. Dette betyr også at i tilfellet at lydfilterbanken 125 bryter ned inngangssignalet inn i for eksempel 32 båndpassignaler oppnår BCC-analyseblokken et sett av BCC-parametere for hvert av de 32 bånd. BCC-synteseblokken 122 i fig. 5, som er illustrert i større detalj i fig. 6, utfører selvfølgelig også en rekonstruksjon som også er basert på de nevnte 32 bånd, gitt som eksempel.

Et scenario anvendt for å bestemme individuelle BCC-parametere vil i det følgende bli illustrert med henvisning til fig. 4. ICLD-, ICTD- og ICC-parametrene kan normalt bli definert mellom kanalpar. Imidlertid er det foretrukket at ICLD og ICTD- parametrene er bestemt mellom en referansekanal og hver enkel kanal. Dette er illustrert i fig. 4A. ICC-parametere kan defineres på forskjellige måter. Generelt kan ICC-parametere bestemmes i koderen mellom alle mulige kanalpar, som illustrert i fig. 4B. Det har blitt foreslått å beregne kun ICC-parametere mellom de to sterkeste kanaler til enhver tid, som illustrert i fig. 4C, som viser et eksempel hvor, til enhver tid, en ICC-parameter mellom kanalene 1 og 2 er beregnet og, til enhver tid, en ICC-parameter mellom kanalene 1 og 5 er beregnet. Dekoderen syntetiserer deretter inter-kanalkorre-lasjonen mellom de sterkeste kanaler i dekoderen og anvender visse heuristiske regler for beregning og syntetisering av inter-kanalkoherensen for de gjenværende kanalpar.

Med hensyn på beregningen av for eksempel multiplikatorparametrene ai, aN basert på de overførte ICLD-parametere er referanse gjort til AES Convention Paper nr. 5574. ICLD-parametrene representerer en energifordeling av et originalt flerkanalsignal. Uten tap av generalitet er det foretrukket å ta fire ICLD-parametere som representerer energidifferansen mellom de respektive kanaler og den fremre venstre kanal, som vist i fig. 4A. I sideinformasjonsprosesseringsblokken 122 er multiplikatorparametrene ai, ..., aN avledet fra ICLD-parametrene slik at den totale energi av alle rekonstruerte utgangskanaler er de samme (eller proporsjonale til energien av summeringssignalet som er overført).

I realiseringen vist i fig. 7 er frekvens/tidskonverteringen oppnådd ved invers-filtreringsbankene IFB 129 av fig. 6 gjort overflødig. I stedet er spektralrepresenta-sj onene av de individuelle kanaler ved inngangen av disse inverse filterbanker anvendt og forsynt til hodetelefonsignalprosesseringsanordningen i fig. 7 for å utføre evalue-ringen av de individuelle flerkanaler med de respektive to filtere per flerkanal uten en ekstra frekvens-/tidstransformasjon.

Hva angår en fullstendig prosessering som skjer i frekvensdomenet skal det bemerkes at i dette tilfelle bør flerkanaldekoderen, for eksempel filterbanken 125 av fig. 6, og stereokoderen ha den samme tids/frekvensoppløsning. I tillegg er det foretrukket å anvende en og samme filterbank, noe som er særlig fordelaktig i det at kun en enkelt filterbank er påkrevet for hele prosesseringen, som illustrert i fig. 1. I dette tilfelle er resultatet en særlig effektiv prosessering siden transformasjonene i flerkanaldekoderen og stereokoderen ikke trenger å bli beregnet.

Henholdsvis inngangsdataene og utgangsdataene i det oppfinneriske konsept er følgelig fortrinnsvis kodet i frekvensdomenet ved hjelp av transformasjon/filterbank og er kodet under psykoakustiske retningslinjer ved anvendelser av maskeringseffekter, hvor det især i dekoderen bør bære en spektral fremstilling av signalene. Eksempler på dette er MP3-filer, AAC-filer eller AC3-filer. Henholdsvis inngangsdataene og utgangsdataene kan imidlertid også være kodet ved dannelse av summen og differansen, som er tilfellet i såkalte matriseprosesser. Eksempler på dette er Dolby ProLogic, Logic7 eller Circle Surround. Dataene av spesielt flerkanalfremstillingen kan i tillegg være kodet ved bruk av parametriske fremgangsmåter, som er tilfelle i MP3-surround, hvor denne fremgangsmåte er basert på BCC-teknikken.

Avhengig av omstendighetene kan den oppfinneriske fremgangsmåte for generering bli iverksatt i enten maskinvare eller programvare. Iverksettingen kan være på et digitalt lagringsmedium, især på en disk eller CD med kontrollsignaler som kan leses ut elektronisk, som kan virke sammen med et programmerbart datamaskinsystem slik at fremgangsmåten vil bli effektuert. Generelt er oppfinnelsen også et datamaskin-programprodukt med en programkode lagret på en bærer som er maskinelt lesbar for utføring av en oppfinnerisk fremgangsmåte når datamaskinprogramproduktet kjører på en datamaskin. Med andre ord kan oppfinnelsen også realiseres som et datamaskinprogram med en programkode for å utføre fremgangsmåten når datamaskinprogrammet kjører på en datamaskin.

Claims

1. Anordning for generering av et kodet stereosignal av et lydstykke eller en lyddatastrøm med en første stereokanal og en andre stereokanal fra en flerkanalfremstilling av lydstykket eller lyddatastrømmen omfattende informasjon om mer enn to flerkanaler, omfattende: middel (11) for tilveiebringing av de flere enn to flerkanaler fra flerkanalfremstillingen, middel (12) for utføring av hodetelefonsignalprosessering for å generere et ukodet stereosignal med en ukodet første stereokanal (10a) og en ukodet andre stereokanal (10b),karakterisert vedat midlet for utføring (12) omfatter å: evaluere hver flerkanal med en første filterfunksjon (H;L) avledet fra en virtuell posisjon av en høyttaler for gjengivelse av flerkanalen og en virtuell første øreposisjon for en lytter for den første stereokanal, og en andre filterfunksjon (HiR) avledet fra en virtuell posisjon av høyttaleren og en virtuell andre øreposisjon av lytteren for den andre stereokanal, for å generere en første evaluert kanal og en andre evaluert kanal for hver flerkanal, hvor de to virtuelle øreposisjoner av lytteren er forskjellige, addere (22) de evaluerte første kanaler for å oppnå den ukodede første stereokanal (10a), addere (23) de evaluerte andre kanaler for å oppnå den ukodede andre stereokanal (10b), og anvende den første filterfunksjon (HiL) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang, og den andre filterfunksjon (HiR) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang, og en stereokoder (13) for koding av en ukodet første stereokanal (10a) og en ukodet andre stereokanal (10b) for å oppnå et kodet stereosignal (14), hvor stereokoderen er fremstilt slik at en datahastighet som er påkrevet for overføring av det kodede stereosignal er mindre enn en datahastighet som er påkrevet for overføring av det ukodede stereosignal.

2. Anordning ifølge krav 2,karakterisert vedat de første og andre filterfunksjoner tilsvarer en filterimpulsrespons som omfatter en topp ved en liten tidsverdi som representerer den direkte lyd, flere små topper ved medium tidsverdier som representerer refleksjoner, og en kontinuerlig region hvor individuelle topper ikke lenger er oppløst og representerer den diffuse gjenklang.

3. Anordning ifølge ett av de foregående krav,karakterisert vedat flerkanalsfremstillingen omfatter én eller flere basiskanaler så vel som parametrisk informasjon for beregning av flerkanalene fra en eller flere basiskanaler, og hvor midlet (11) for tilveiebringelse er fremstilt for beregning av de minst tre flerkanaler fra den ene eller de flere basiskanaler og den parametriske informasjon.

4. Anordning ifølge krav 4,karakterisert vedat midlet (11) for tilveiebringelse er fremstilt for på utgangsiden å tilveiebringe en blokkvis frekvensdomenefremstilling for hver flerkanal, og hvor midlet (12) for fremstilling er fremstilt for å evaluere den blokkvise frekvensdomenefremstilling ved en frekvensdomenefremstilling av de første og andre filterfunksjoner.

5. Anordning ifølge ett av de foregående krav,karakterisert vedat midlet (12) for utføring er fremstilt for å tilveiebringe en blokkvis frekvensdomenefremstilling av den ukodede første stereokanal og den ukodede andre stereokanal, og hvor stereokoderen (13) er en transformasjonsbasert koder og er også fremstilt for å prosessere den blokkvise frekvensdomenefremstilling av den ukodede første stereokanal og den ukodede andre stereokanal uten en konvertering fra frekvensdomenefremstillingen til en temporal fremstilling.

6. Anordning ifølge ett av de foregående krav,karakterisert vedat stereokoderen (13) er fremstilt for å utføre en felles stereokoding (15) av de første og andre stereokanaler.

7. Anordning ifølge ett av de foregående krav,karakterisert vedat stereokoderen (13) er fremstilt for å kvantisere (16) en blokk av spektralverdier ved anvendelse av en psykoakustisk maskeringsgrenseverdi og utsette det for entropikoding (17) for å oppnå det kodede stereosignal.

8. Anordning ifølge ett av de foregående krav,karakterisert vedat midlet (11) for tilveiebringelse er fremstilt som en BCC-dekoder.

9. Anordning ifølge ett av de foregående krav,karakterisert vedat midlet (11) for tilveiebringelse er fremstilt som en flerkanalsdekoder som omfatter en filterbank med flere utganger, hvor midlet (12) for utføring er fremstilt for å evaluere signaler ved filterbankutgangene ved de første og andre filterfunksjoner, og hvor stereokoderen (13) er fremstilt for å kvantisere (16) den ukodede første stereokanal i frekvensdomenet og den ukodede andre stereokanal i frekvensdomenet og utsette det for entropikoding (17) for å oppnå det kodede stereosignal.

10. Fremgangsmåte for generering av et kodet stereosignal av et lydstykke eller en lyddatastrøm med en første stereokanal og en andre stereokanal fra en flerkanal fremstilling av lydstykket eller lyddatastrømmen omfattende informasjon om mer enn to flerkanaler, å omfatte trinnene: tilveiebringe (11) de flere enn to flerkanaler fra flerkanalfremstillingen, utføre (12) hodetelefonsignalprosessering for å generere et ukodet stereosignal med en ukodet første stereokanal (10a) og en ukodet andre stereokanal (10b),karakterisert vedat trinnet for utføring (12) omfatter å: evaluere hver flerkanal med en første filterfunksjon (HiL) avledet fra en virtuell posisjon av en høyttaler for gjengivelse av flerkanalen og en virtuell første øreposisjon for en lytter for den første stereokanal, og en andre filterfunksjon (H;R) avledet fra en virtuell posisjon av høyttaleren og en virtuell andre øreposisjon av lytteren for den andre stereokanal, for å generere en første evaluert kanal og en andre evaluert kanal for hver flerkanal, hvor de to virtuelle øreposisjoner av lytteren er forskjellige, addere (22) de evaluerte første kanaler for å oppnå den ukodede første stereokanal (10a), addere (23) de evaluerte andre kanaler for å oppnå den ukodede andre stereokanal (10b), anvende den første filterfunksjon (H;L) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang, og den andre filterfunksjon (HiR) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang stereokoding (13) av den ukodede første stereokanal (10a) og den ukodede andre stereokanal (10b) for å oppnå det kodede stereosignal (14), hvor trinnet for stereokoding er effektuert slik at en datahastighet som er påkrevet for overføring av det kodede stereosignal er mindre enn en datahastighet som er påkrevet for overføring av det ukodede stereosignal.

11. Et datamaskinprogram,karakterisert vedat det har en programkode for å utføre fremgangsmåten for generering av et kodet stereosignal ifølge krav 11, når datamaskinprogrammet kjører på en datamaskin.