NO339958B1 - Anordning og fremgangsmåte for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm - Google Patents

Anordning og fremgangsmåte for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm Download PDF

Info

Publication number
NO339958B1
NO339958B1 NO20075004A NO20075004A NO339958B1 NO 339958 B1 NO339958 B1 NO 339958B1 NO 20075004 A NO20075004 A NO 20075004A NO 20075004 A NO20075004 A NO 20075004A NO 339958 B1 NO339958 B1 NO 339958B1
Authority
NO
Norway
Prior art keywords
stereo
channel
channels
signal
uncoded
Prior art date
Application number
NO20075004A
Other languages
English (en)
Other versions
NO20075004L (no
Inventor
Harald Popp
Jan Plogsties
Harald Mundt
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of NO20075004L publication Critical patent/NO20075004L/no
Publication of NO339958B1 publication Critical patent/NO339958B1/no

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Catalysts (AREA)

Description

Den foreliggende oppfinnelse angår flerkanals lydteknologi og især flerkanals lydanvendelser i forbindelse med hodetelefonteknologier.
Den internasjonale patentsøknad WO 99/49574 og WO 99/14983 offentliggjør lydsignalprosesseringsteknologier for å drive et par av motsatt anordnet hodetelefon-høyttalere slik at en kan få romlig sansning av lydbilde via de to hodetelefoner, noe som ikke bare gir en stereofremstilling men også en flerkanalfremstilling. Lytteren vil følgelig få, via hans eller hennes hodetelefoner, en romlig sansning av et lydstykke som i beste fall er likt hans eller hennes romlige sansning hvis brukeren skulle være i et gjengivelsesrom eksempelvis utstyrt med et 5,1 lydsystem. For hver hodetelefon-høyttaler er med dette formål hver kanal av flerkanallydstykket eller flerkanallyd-datastrømmen tilført et separat filter, som er illustrert i fig. 2, hvorpå de respektive filtrerte kanaler som hører sammen er addert, noe som vil bli illustrert i det følgende.
På en venstre side i fig. 2 fins flerkanalsinngangene 20 som sammen fremstiller en flerkanalsfremstilling av lydstykket eller lyddatastrømmen. Slik et scenario er skjematisk vist som eksempel i fig. 10. Fig. 10 viser et gjengivelsesrom 200 hvor et såkalt 5,1 lydsystem er anordnet. 5,1 lydsystemet omfatter en senterhøyttaler 201, en fremre venstre høyttaler 202, en fremre høyre høyttaler 203, en bakre venstre høyttaler 204 og en bakre høyre høyttaler 205. Et 5,1 lydsystem omfatter en ekstra "subwoofer" 206, som også er omtalt som lavfrekvent forsterkningskanal. I det såkalte "sweet spot" av gjengivelsesrommet 200 er det en lytter 207 som bærer en hodetelefon 208 omfattende en venstre hodetelefonhøyttaler 209 og en høyre hodetelefonhøyttaler 210.
Prosesseringsmidler vist i fig. 2 er fremstilt for å filtrere hver kanal 1, 2, 3 av flerkanalinngangene 20 med et filter HiL som beskriver lydkanalen fra høyttaleren til den venstre høyttaler 209 i fig. 10, og ytterligere å filtrere den samme kanal med et filter H;Rsom representerer lyden fra en av de fem høyttalere til det høyre øre eller den høyre høyttaler 210 av hodetelefon 208.
For eksempel, hvis kanal 1 i fig. 2 var den fremre venstre kanal avgitt av høyt-taleren 202 i fig. 10, ville filteret HiL representere kanalen indikert av en stiplet linje 212, mens filteret H;Rville representere kanalen indikert av en stiplet linje 213. Den venstre hodetelefonhøyttaler 209 mottar ikke bare den direkte lyd, men også tidlige refleksjoner fra en kant av gjengivelsesrommet, noe som er indikert som eksempel i fig. 10 ved en stiplet linje 214, og selvfølgelig også sene refleksjoner avgitt som en diffus gjenklang.
Slik en filterfremstilling er illustrert i fig. 11. Især viser fig. 11 et skjematisk eksempel på en impulsrespons av et filter slik som for eksempel av filteret HiL i fig. 2. Den direkte eller primære lyd illustrert i fig. 11 ved linjen 212 er representert ved en topp ved filterets begynnelse, mens tidlige refleksjoner, som er illustrert som eksempel i fig. 10 ved 214, er gjengitt ved et senterområde med flere (diskrete) mindre topper i fig. 11. Den diffuse gjenklang er typisk ikke lenger oppløst i individuelle topper siden lyden av høyttaleren 202 i prinsipp er reflektert vilkårlig ofte hvor energien selvfølgelig avtar med hver refleksjon og ekstra forplantningsdistanse som er illustrert ved den av-tagende energi i den bakre del, som i fig. 11 er henvist som en "diffus gjenklang".
Følgelig omfatter hvert filter i fig. 2 en filterimpulsrespons som har en omtrentlig profil som er vist ved den skjematiske pulsrespons illustrert i fig. 11. Det er opplagt at den individuelle filterimpulsrespons vil avhenge av gjengivelsesrommet, posisjonen av høyttalerne, mulig dempningsegenskaper i gjengivelsesrommet ved for eksempel på grunn av tilstedeværelsen av flere personer eller på grunn av møblement i gjengivelsesrommet, og ideelt sett også på karakteristikkene av de individuelle høyt-talere 201 til 206.
Det faktum at signalene fra alle høyttalerne er overlagret ved lytterens 207 øre er illustrert av addererne 22 og 23 i fig. 2. Hver kanal er derfor filtrert med et korresponderende filter for det venstre øre for så simpelthen å addere opp utgangs-signalene av filtrene som er bestemt for det venstre øre for å oppnå hodetelefon-utgangssignalet for det venstre øre L. Analogt er et tillegg ved addereren 23 for det høyre øre eller den høyre hodetelefonhøyttaler 210 i fig. 10 utført for å oppnå hode-telefonsutgangssignalet for det høyre øre ved overlagring av alle hodetelefonssignalene filtrert av et korresponderende filter for det høyre øre.
På grunn av det faktum at, i tillegg til den direkte lyd, det også er tidlige refleksjoner og især en diffus gjenklang som er av spesiell høy viktighet for romsansningen slik at tonen ikke høres syntetisk eller "merkelig" ut men gir lytteren inntrykket av at han eller hun faktisk sitter i et konsertrom med dets akustiske karakteristikker, vil alle impulsresponser av de individuelle filtere 21 være av anselige lengder. Konvolusjonen av hver individuell flerkanal av flerkanalfremstillingen med to filtere resulterer allerede i en betydelig beregningsoppgave. Siden to filtere er krevet for hver individuell flerkanal, dvs. en for det venstre øre og en annen for det høyre øre, når "subwoofer"-kanalen også er behandlet separat, er et totalt antall av tolv helt forskjellige filtere krevet for en hodetelefonsgjengivelse av en 5,1 flerkanalfremstilling. Som vil bli klart av fig. 11 har alle filtere en svært lang impulsrespons som er i stand til ikke bare å ta hensyn til den direkte lyd men også tidlige refleksjoner og diffuse gjenklanger, som strengt tatt kun gir et lydstykke den sanne lydgjengivelse og gode romlige inntrykk.
For å kunne sette det velkjente konsept ut i praksis er, i tillegg til en flerkanal-spiller 220 som vist i fig. 10, svært komplisert virtuell lydprosessering 222 påkrevet som tilveiebringer signalene for de to høyttalere 209 og 210 fremstilt ved linjene 224 og 226 i fig. 10.
Herre, J. et al.: "MP3 Surround: Efficient and Compatible Coding of MultiChannel Audio", Audio Engineering Society, 116. konvensjon, forhåndstrykk, sidene 1-14, Mai 2004 beskriver teknologi som gjør det mulig å gi en representasjon av flerkanals lyd med bitrater som er sammenlignbare med det som i dag brukes til å kode stereomateriale
Hodetelefonsystemer for generering av en flerkanals hodetelefonlyd er kompli-serte, uhåndterlige og dyre, grunnet den høye regnekraft, det høye strømbehov for den høye regnekraft som er påkrevet og det høye driftslagringsbehov for evalueringene som skal utføres av impulsresponsen og det store volum eller dyre elementer for spilleren koplet dertil. Anvendelser av denne type er følgelig knyttet til lydkort i hjemme-pc eller lydkort i bærbare datamaskiner eller hjemmestereosystemer.
Spesielt forblir flerkanals hodetelefonlyder utilgjengelige for det kontinuerlig økte marked av mobile spillere slik som for eksempel mobile cd-spillere eller særlig maskinvarespillere, siden de påkrevde beregninger for filtrering av flerkanaler med eksempelvis tolv forskjellige filtere ikke kan realiseres i dette prissegment verken med hensyn på prosessingsmidler eller med hensyn til de gjeldende behov for typiske batte-ridrevne anordninger. Dette henviser til et prissegment ved bunn-(lavere)-enden av skalaen. Imidlertid, nettopp dette prissegment er økonomisk svært interessant på grunn av de høye antall av stykker.
Formålet med den foreliggende oppfinnelse er å tilveiebringe et effektivt signalprosesseringskonsept som tillater en hodetelefonsgjengivelse av flerkanals-kvalitet på enkle gjengivelsesanordninger.
Dette formål er oppnådd ved en anordning for generering av et kodet stereosignal ifølge krav 1 eller ved en fremgangsmåte for generering av et kodet stereosignal ifølge krav 10 eller ved et datamaskinprogram ifølge krav 11.
Den foreliggende oppfinnelse er basert på de oppdagelser at høykvalitet og attraktive flerkanalshodetelefonlydene kan bli gjort tilgjengelig for alle tilgjengelige spillere slik som for eksempel cd-spillere eller maskinvarespillere ved å utsette en fler-kanalsgjengivelse av et lydstykke eller lyddatastrøm, dvs. for eksempel en 5,1 gjengivelse av et lydstykke, for hodetelefonsignalprosessering utenfor en maskinvarespiller, dvs. for eksempel i en datamaskin fra en leverandør med høy beregningskraft. Ifølge oppfinnelsen er resultatet av en hodetelefonsignalprosessering imidlertid ikke simpelthen spilt men levert til en typisk lydstereokoder som deretter genererer et kodet stereosignal fra den venstre hodetelefonskanal og den høyre hodetelefonskanal.
Som ethvert annet kodet stereosignal som ikke omfatter en flerkanalgjengivelse kan dette kodede stereosignal så bli tilført maskinvarespilleren eller for eksempel en mobil cd-spiller i form av en cd. Gjengivelses- eller omspillingsanordningen vil så gi brukeren en hodetelefonflerkanalslyd uten noe ekstra ressurser eller midler som må adderes til anordninger som allerede eksisterer. Det oppfinneriske er at resultatet av hodetelefonsignalprosesseringen, dvs. det venstre og høyre hodetelefonsignal, ikke er gjengitt i en hodetelefon som har vært tilfelle i tidligere kjent teknikk, men kodet og utmatet som kodet stereodata.
Slik en utgang kan være lagring, transmisjon eller liknende. Slik en fil med kodet stereodata kan deretter enkelt blir levert til enhver gjengivelsesanordning som er utviklet for stereogjengivelse uten at brukeren må utføre noen endringer i hans anordning.
Det oppfinneriske konsept av å generere et kodet stereosignal fra resultatet av hodetelefonsignalprosesseringen tillater derfor flerkanalgjengivelse, noe som tilveiebringer en betydelig forbedret og mer reell kvalitet for brukeren, og kan bli anvendt på alle enkle og utbredte, og i fremtiden endog mer utbredte, maskinvarespillere.
I en foretrukket realisering av den foreliggende oppfinnelse er utgangspunktet en kodet flerkanalsfremstilling, dvs. en parametrisk fremstilling som omfatter en eller typisk to basiskanaler og ytterligere omfatter parametriske data for å generere flerkanalene av flerkanalfremstillingen på basisen av basiskanalene og de parametriske data. Siden en frekvensdomenebasert fremgangsmåte for flerkanalsdekoding er foretrukket er hodetelefonsignalprosesseringen ifølge oppfinnelsen ikke utført i tidsdomenet ved konvolusjon av tidssignalet ved en impulsrespons, men i frekvensdomenet ved multiplikasjon av filtertransmisjonsfunksjonen.
Dette tillater minst en retransformasjon før hodetelefonsignalprosesseringen skal lagres og er særlig fordelaktig når den påfølgende stereokoder også opererer i frekvensdomenet slik at stereokodingen av hodetelefonstereosignalet, uten noensinne å måtte gå til tidsdomenet, kan også skje uten å gå til tidsdomenet. Prosesseringen fra flerkanalfremstillingen til det kodede stereosignal uten at tidsdomenet tar del, eller ved minst et redusert antall av transformasjoner, er interessant nok ikke bare med hensyn på beregningstidseffektiviteten, men setter en grense på kvalitetstap siden færre proses-seringsnivå vil introdusere færre artefakter i lydsignalet.
Særlig i blokkbaserte fremgangsmåter som utfører kvantisering som tar hensyn til en psykoakustisk maskeringsgrenseverdi, noe som er foretrukket for stereokoderen, er det viktig å forhindre så mange tandemkodingsartefakter som mulig.
I en særlig foretrukket realisering av den foreliggende oppfinnelse er en BCC-fremstilling med én eller fortrinnsvis to basiskanaler anvendt som en flerkanalfremstilling. Siden BCC-fremgangsmåten opererer i frekvensdomenet er flerkanalene ikke transformert til tidsdomenet etter syntese, noe som vanligvis er gjort i en BCC-dekoder. I stedet er spektralfremstillingen av flerkanalene i formen av blokker anvendt og utsatt for hodetelefonsignalprosesseringen. For dette er transformasjonsfunksjonene av filtrene, dvs. Fourier-transformene av impulsresponsene, anvendt for å utføre en multiplikasjon av spektralfremstillingen av flerkanalene ved filtertransformasjonsfunk-sjonene. Når impulsresponsene av filtrene er med tiden lengre enn en blokk av spektralkomponenter ved utgangen av BCC-dekoderen er en blokkliknende filter-prosessering foretrukket hvor impulsresponsene av filtrene er separert i tidsdomenet og er transformert blokk for blokk for så å kunne utføre korresponderende spektrum-veiinger som er nødvendig for målinger av denne type, slik som det for eksempel er offentliggjort i WO 94/01933.
Foretrukne realiseringer av foreliggende oppfinnelse vil i det følgende bli gitt i mer detalj med henvisning til de vedlagte tegninger, hvor: fig. 1 viser et blokkretsskjema av den oppfinneriske anordning for generering av et kodet stereosignal, fig. 2 er en detaljert illustrasjon av en iverksetting av hodetelefonsignalprosesseringen av fig. 1, fig. 3 viser en velkjent fellesstereokoder for generering av kanaldata og parametrisk flerkanalinformasjon, fig. 4 er en illustrasjon av en plan for å bestemme ICLD-, ICTD- og ICC-parametere for BCC-koding/dekoding, fig. 5 er en blokkskjemaillustrasjon av en BCC-koder/dekoderkjede, fig. 6 viser et blokkskjema av en iverksetting av BCC-synteseblokken fra fig. 5, fig. 7 viser kaskade mellom en flerkanaldekoder og hodetelefonsignalprosessering uten noe transformasjon til tidsdomenet, fig. 8 viser kaskade mellom hodetelefonsignalprosessering og en stereokoder uten noe transformasjon til tidsdomenet, fig. 9 viser et prinsippblokk-skjema av en foretrukket stereokoder, fig. 10 er en prinsippillustrasjon av et gjen-givelsesscenario for å bestemme flerfunksjonene fra fig. 2, og fig. 11 er en prinsippillustrasjon av en forventet impulsrespons av et filter som er bestemt ifølge fig. 10.
Fig. 1 viser et prinsipielt blokkretsskjema av en oppfinnerisk anordning for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm. Stereosignalet omfatter, i en ukodet form, en ukodet første stereokanal 10a og en ukodet andre stereokanal 10b og er generert fra en flerkanalgjengivelse av lydstykke eller lyddata-strømmen, hvor flerkanalgjengivelsen omfatter informasjon om mer enn to flerkanaler. Som vil bli forklart senere kan flerkanalgjengivelsen være i en ukodet eller en kodet form. Hvis flerkanalgjengivelsen er i en ukodet form vil den omfatte tre eller flere flerkanaler. Med en foretrukket anvendelses scenario omfatter flerkanalgjengivelsen fem kanaler og en "subwoofer"-kanal.
Imidlertid, hvis flerkanalgjengivelsen er i en kodet form vil denne kodede form typisk omfatte en eller flere basiskanaler så vel som parametere for syntetisering av de tre eller flere flerkanaler fra den ene eller to basiskanaler. En flerkanaldekoder 11 er følgelig et eksempel på middel for å tilveiebringe de flere enn to flerkanaler fra flerkanalgjengivelsen. Imidlertid, flerkanalgjengivelsen allerede er i en ukodet form, dvs. for eksempel formen av 5+1 PCM-kanaler, korresponderer middel for tilveiebringing en inngangsterminal for middel 12 for utføring av hodetelefonsignalprosessering for å generere det ukodede stereosignal med den ukodede første stereokanal 10a og den ukodede andre stereokanal 1 Ob.
Fortrinnsvis er middel 12 for å utføre hodetelefonsignalprosessering fremstilt for å evaluere flerkanalene av flerkanalgjengivelsen hver ved en første filterfunksjon for den første stereokanal og ved en andre filterfunksjon for den andre stereokanal og addere de respektive evaluerte flerkanaler for å oppnå den ukodede første stereokanal og den andre ukodede stereokanal, som er illustrert med henvisning til fig. 2. Ned-strøms av middel 12 for utføring av hodetelefonsignalprosesseringen er en stereokoder 13 som er fremstilt for å kode den første ukodede stereokanal 10a og den andre ukodede stereokanal 10b for å oppnå det kodede stereosignal ved en utgang 14 av stereokoderen 13. Stereokoderen utfører en datahastighetsreduksjon slik at en datahastighet som er krevet for overføring av det kodede stereosignal er mindre enn datahastighet som er krevet for overføring av det ukodede stereosignal.
Ifølge oppfinnelsen er et konsept oppnådd som tillater tilførsel av en flerkanal-tone, som også er henvist til som "surround", til stereohodetelefonene via enkle spillere slik som for eksempel maskinvarespillere.
Summen av disse kanaler kan for eksempel bli dannet ved enkel hodetelefonsignalprosessering for å oppnå utgangskanalene for stereodataene. Forbedrede fremgangsmåter fungerer med mer komplekse algoritmer som igjen oppnår en forbedret gjengivelseskvalitet.
Det skal bemerkes at det oppfinneriske konsept tillater de beregningskrevende trinn for flerkanalsdekoding og for utføring av hodetelefonsignalprosesseringen ikke i selve spilleren men å bli utført eksternt. Resultatet av dette oppfinneriske konsept er en kodet stereofil som er for eksempel en MP3-fil, en AAC-fil, en HE-AAC-fil eller noen annen stereofil.
I andre realiseringer kan flerkanaldekodingen, hodetelefonsignalprosesseringen og stereokodingen bli utført på forskjellige anordninger siden henholdsvis utgangs-dataen og inngangsdataen av de individuelle blokker kan enkelt bli portert og bli generert og lagret på en standardisert måte.
I det følgende vil henvisning bli gjort til fig. 7 som viser en foretrukket realisering av foreliggende oppfinnelse hvor flerkanaldekoderen 11 omfatter en filterbank eller FFT-funksjon slik at flerkanalgjengivelsen er tilveiebrakt i frekvensdomenet. Især er de individuelle flerkanaler generert som blokker av spektrale verdier for hver kanal. På en oppfinnerisk måte er hodetelefonsignalprosessering ikke utført i tidsdomenet ved konvolusjon av de temporale kanaler med filterimpulsresponsene, men en multiplikasjon av frekvensdomenegjengivelsen av flerkanalene ved en spektral gjengivelse av filterimpulsresponsen er utført. Et ukodet stereosignal er oppnådd ved utgangen av hodetelefonsignalprosesseringen, som imidlertid ikke er i tidsdomenet men omfatter en venstre og en høyre stereokanal, hvor slike en stereokanal er gitt som en sekvens av blokker av spektralverdier, der hver blokk av spektralverdier representerer et korttids-spektrum av stereokanalen.
I realiseringen vist på fig. 8 er hodetelefonsignalprosesseringsblokken på inngangssiden forsynt med enten tidsdomene- eller frekvensdomenedata. På utgangssiden er de ukodede stereokanaler generert i frekvensdomenet, dvs. igjen som en sekvens av blokker av spektralverdier. En stereokoder som er basert på en transformasjon, dvs. som prosesserer spektralverdier uten en frekvens/tidskonvertering og en påfølgende tids/frekvenskonvertering som er nødvendig mellom hodetelefonsignalprosessering 12 og stereokoderen 13, er foretrukket som stereokoderen 13 i dette tilfelle. På utgangssiden utmater stereokoderen 13 så en fil med det kodede stereosignal som, i tillegg til sideinformasjon, omfatter en kodet form av spektralverdier.
I en særlig foretrukket realisering av den foreliggende oppfinnelse er en kontinuerlig frekvensdomeneprosessering utført på veien fra flerkanalgjengivelsen ved inngangen av blokk 11 i fig. 1 til den kodede stereofil ved utgangen 14 av midlene i fig 1, uten at en transformasjon til tidsdomenet og muligens en retransformasjon til frekvensdomenet må finne sted. Når en MP3-koder eller en AAC-koder er anvendt som stereokoder vil det være foretrukket å transformere Fourier-spekteret ved utgangen av hodetelefonsignalprosesseringsblokken til et MDCT-spektrum. Følgelig er det sikret ifølge oppfinnelsen at faseinformasjon som er krevet i en presis form for konvolusjon/evalueringen av kanalene i hodetelefonsignalprosesseringsblokken er konvertert til MDCT-gjengivelsen som ikke opererer i slik en fasekorrekt måte, slik at midler for transformering fra tidsdomenet til frekvensdomenet, dvs. til MDCT-spekteret, ikke er krevet for stereokoderen, i motsetning til en normal MP3-koder eller en normal AAC-koder.
Fig. 9 viser et generelt blokkretsskjema for en foretrukket stereokoder. Stereokoderen omfatter på inngangssiden en felles stereomodul 15 som fortrinnsvis bestemmer på en adaptiv måte om en felles stereokoder, for eksempel formen av en senter/sidekoding, tilveiebringer en høyere kodingsvinning enn en separat prosessering på de venstre og høyre kanaler. Den felles stereomodul 15 kan videre fremstilles for å utføre en intensitetsstereokoding, hvor en intensitetsstereokoding tilveiebringer, spesielt ved høyere frekvenser, en vesentlig kodingsvinning uten at hørbare artefakter opp-står. Utgangen av den felles stereomodul 15 er deretter prosessert videre ved anvendelse av ulike andre redundansreduserende målinger slik som for eksempel TNS-filtrering, støyerstatning, etc, for så å forsyne resultatene til en kvantiserer 16 som oppnår en kvantisering av spektralverdiene ved anvendelse av en psykoakustisk maskeringsgrenseverdi. Kvantisererens trinnstørrelse er her valgt slik at støyen introdusert ved kvantisering forblir under den psykoakustiske maskeringsgrenseverdi slik at en datahastighetsreduksjon er oppnådd uten at forvrengningene introdusert ved tapskvanti-seringen er hørbare. Nedstrøms av kvantisereren 16 er en entropikoder 17 som utfører tapsfri entropikoding av de kvantiserte spektralverdier. Ved utgangen av entropi-koderen er det kodede stereosignal som, i tillegg til de entropikodede spektralverdier, omfatter sideinformasjon som er påkrevet for dekoding.
I det følgende vil henvisning bli gjort til foretrukne iverksettinger av flerkanaldekoderen og til foretrukne flerkanalillustrasjoner ved anvendelse av fig. 3 til 6.
Det fins flere teknikker for å redusere mengden av data påkrevet for overføring av et flerkanallydsignal. Slike teknikker er også kalt felles stereoteknikker. For denne hensikt er henvisning gjort til fig. 3 som viser en felles stereoanordning 60. Denne anordning kan være en anordning som iverksetter for eksempel intensitetsstereo (IS) teknikken eller den binaurale "cue" kodingsteknikk (BCC). Slik en anordning mottar generelt minst to kanaler CH1, CH2, ..., CHn som inngangssignal og utmater en enkel bærekanal og parametrisk flerkanalinformasjon. De parametriske data er definert slik at et overslag av en originalkanal (CH1, CH2, ..., CHn) kan beregnes i en dekoder.
Normalt vil bærekanalen omfatte subbåndutvalg, spektralkoeffisienter, tidsdomeneutvalg, etc, som tilveiebringer en relativ fin gjengivelse av det underliggende signal, mens de parametriske data ikke omfatter slike utvalg eller spektrale koeffisienter, men kontrollparametere for å kontrollere en viss rekonstruksjonsalgoritme slik som for eksempel veiing ved multiplikasjon, tidsforskyvning, frekvensforskyvning, etc. Den parametriske flerkanalinformasjon omfatter følgelig en relativ anslagsvis gjengivelse av signalet eller det tilknyttede signal. Uttrykt i tall er mengden av data som er påkrevet ved en bærekanal i området 60 til 70 kbits/s, mens mengden av data påkrevet ved parametrisk sideinformasjon for en kanal er i området fra 1,5 til 2,5 kbits/sekund. Det skal bemerkes at tallene ovenfor gjelder komprimerte data. En ikke-komprimert CD-kanal krever selvfølgelig omtrentlig tifoldige datahastigheter. Et eksempel på parametriske data er de velkjente skaleringsfaktorer, intensitetsstereoinformasjon eller BCC-parametere, som vil bli beskrevet under.
Intensitetsstereokodmgsteknikken er beskrevet i AES Preprint 3799 kalt "Intensity Stereo Coding" av J. Herre, K.H. Brandenburg, D. Lederer, februar 1994, Amsterdam. Konseptet for intensitetsstereo er generelt basert på en hovedaksetrans-formering som skal anvendes på data fra de to stereofoniske lydkanaler. Hvis flest datapunkter er konsentrert rundt den første hovedakse kan kodingsvinningen oppnås ved rotasjon av begge signaler ved en viss vinkel før kodingen skjer. Dette kan imidlertid ikke alltid anvendes på reelle stereofoniske gjengivelsesteknikker. Denne teknikk er følgelig endret i det at den andre ortogonalkomponent er utelukket fra å bli overført i bitstrømmen. De rekonstruerte signaler for de venstre og høyre kanaler består følgelig av forskjellige veiede og skalerte versjoner av det samme overførte signal. Likevel avviker de rekonstruerte signaler i amplitude, men de er identiske med hensyn på deres faseinformasjon. Energitidsomhylningene av begge originallydkanaler er imidlertid oppretthold ved den selektive skaleringsoperasjon som typisk virker på en frekvensselektiv måte. Dette korresponderer til menneskelig lydsansning ved høye frekvenser hvor den dominante rominformasjon er bestemt ved energiomhylningene.
I tillegg er i praktiske iverksettinger det overførte signal, dvs. bærerkanalen, produsert fra sumsignalet av den venstre kanal og den høyre kanal i stedet for rotasjon av begge komponenter. Denne prosessering, dvs. generering av intensitetsstereopara-metere for utføring av skaleringsoperasjoner, er dessuten utført på en frekvensselektiv måte, dvs. uavhengig for hvert skaleringsfaktorbånd, dvs. for hver koderfrekvensparti-sjon. Begge kanaler er fortrinnsvis kombinert- eller "bærer"-kanal og, i tillegg til den kombinerte kanal, intensitetsstereoinformasjonen. Intensitetsstereoinformasjonen avhenger av energien av den første kanal, energien av den andre kanal eller energien av den kombinerte kanal.
BCC-teknikken er beskrevet i AES Convention Paper 5574 kalt "Binaural Cue Coding applied to stereo and multichannel audio compression" av T. Faller, F. Baumgarte, mai 2002, Munchen. I BCC-koding er et antall av lydinngangskanaler konvertert til en spektralfremstilling ved anvendelse av en DFT-basert transform med overlappende vinduer. Det resulterende spektrum er delt inn i ikke-overlappende deler, hvor hver har en indeks. Hver partisjon har en båndvidde som er proporsjonal med den ekvivalente høyrevinklede båndvidde (ERB). Inter-kanalnivådifferansene (engelsk: inter-channel level differences, ICLD) og inter-kanaltidsdifferansene (engelsk: inter-channel time differences, ICTD) er bestemt for hver partisjon og for hver ramme k. ICLD og ICTD er kvantiserte og kodede for til sist å oppnå en BCC-bitstrøm som sideinformasjon. Inter-kanalnivådifferansene og inter-kanaltidsdifferansene er gitt for hver kanal med hensyn på en referansekanal. Parametrene er deretter beregnet i over-ensstemmelse med forhåndsbestemte formler som avhenger av de spesielle partisjoner av signaler som skal prosesseres.
På dekodersiden mottar typisk dekoderen et monosignal og BCC-bitstrømmen. Monosignalet er transformert til frekvensdomenet og matet inn i en romlig synteseblokk som også mottar dekodede ICLD- og ICTD-verdier. I den romlige synteseblokk er BCC-parametrene (ICLD og ICTD) anvendt for å utføre en veiingsoperasjon av monosignalet, og syntetisere flerkanalsignalene som, etter en frekvens/tids-konvertering, representerer en rekonstruksjon av det originale flerkanallydsignal.
I tilfelle av BCC er den felles stereomodul 60 virksom for utmating av kanalsideinformasjonen slik at de parametriske kanaldata er kvantiserte og kodede ICLD- eller ICTD-parametere, hvor en av de originale kanaler er anvendt som en referansekanal for koding av kanalsideinformasjonen.
Bærersignalet er normalt dannet av summen av de deltagende originalkanaler.
Teknikkene ovenfor tilveiebringer selvfølgelig kun en monofremstilling for en dekoder som kun kan prosessere bærerkanalen, men som ikke er i stand til å prosessere parametriske data for generering av en eller flere tilnærminger av flere enn en inn-gangskanal.
BCC-teknikken er også beskrevet i US patentsøknadene US 2003/0219130 Al, US 2003/0026441 Al og US 2003/0035553 Al. I tillegg er referanse gjort til den sak-kyndige publikasjon "Binaural Cue Coding. Part II: Schemes and Applications" ved T. Faller og F. Baumgarte, IEEE Trans. On Audio and Speech Proe, bind 11, nr. 6, november 2003.
I det følgende vil en typisk BCC-plan for flerkanallydkoding bli illustrert I større detalj ved henvisning til fig. 4 til 6.
Fig. 5 viser slik en BCC-plan for koding/overføring av flerkanallydsignaler. Flerkanallydinngangssignalet ved en inngang 110 av en BCC-koder 112 er blandet ned i en såkalt nedblandingsblokk 114. Med dette eksempel er det originale flerkanalsignal ved inngangen 110 et 5-kanal surround-signal med en fremre venstre kanal, en fremre høyre kanal, en venstre surround-kanal, en høyre surround-kanal og en senterkanal. I den foretrukne realisering av den foreliggende oppfinnelse genererer nedblandings-blokken 114 et summeringssignal ved hjelp av en enkel addering av disse fem kanalene inn i et monosignal.
Andre nedblandingsplaner er vist i feltet slik at ved anvendelse av et flerkanalsinngangssignal er en nedblandingskanal med en enkel kanal oppnådd.
Denne enkle kanal er utmatet på en summeringssignallinje 115. Sideinformasjon oppnådd fra BCC-analyseblokken 116 er utmatet på en sideinformasjonslinje 117.
Inter-kanalnivådifferanser (ICLD) og inter-kanaltidsdifferanser (ICTD) er beregnet i BCC-analyseblokken som illustrert ovenfor. BCC-analyseblokken 116 er nå også i stand til å beregne inter-kanalkorrelasjonsverdier (engelsk: inter-channel correlation values, ICC-verdier). Summeringssignalet og sideinformasjon er overført til en BCC-dekoder 120 i et kvantisert og kodet format. BCC-dekoderen atskiller det overførte summeringssignal inn i et antall av subbånd og utfører skaleringer, for-sinkelser og videre prosesseringstrinn for å tilveiebringe subbåndene av flerkanalslyd-kanalene som skal utmates. Denne prosessering er utført slik at ICLD, ICTD og ICC-parametrene (cues) av et rekonstruert flerkanalsignal ved utgangen 121 stemmer over-ens med de korresponderende "cues" for det originale flerkanalsignal ved utgangen 110 i BCC-koderen 112. For denne hensikt omfatter BCC-dekoderen 120 en BCC-synteseblokk 122 og en sideinformasjonsprosesseringsblokk 123.
I det følgende vil det interne oppsett av BCC-synteseblokken 122 bli illustrert ved henvisning til fig. 6. Summeringssignalet på linjen 115 er levert til en tids/frekvenskonverteringsenhet eller filterbank FB 125. Ved utgangen av blokk 125 er et antall N av subbåndsignaler eller, i et ekstremt tilfelle, en blokk av spektralkoeffisienter når lydfilterbanken 125 utfører en l:l-transformasjon, dvs. en transformasjon som genererer N spektrale koeffisienter fra N tidsdomeneutvalg.
BCC-synteseblokken 122 omfatter videre et forsinkelsestrinn 126, et nivå-endringstrinn 127, et korrelasjonsprosesseringstrinn 128 og et inversfilterbanktrinn IFB 129. Ved utgangen av trinn 129 kan det rekonstruerte flerkanallydsignal med for eksempel fem kanaler i tilfelle av et femkanal-surround-system utmates til et sett av høyttalere 124, som illustrert i fig. 5 eller fig. 4.
Inngangssignalet (sn) er konvertert til frekvensdomenet eller filterbankdomenet ved hjelp av elementet 125. Signalet utmatet av elementet 125 er kopiert slik at flere versjoner av det samme signal er oppnådd, som illustrert ved kopinoden 130. Antallet av versjoner av det originale signal er lik antallet av utgangskanaler i utgangssignalet. Deretter er hver versjon av originalsignalet ved noden 130 utsatt for en viss forsinkelse di, d2, ..., du- Forsinkelsesparametrene er beregnet ved sideinformasjonsprosesseringsblokken 123 i fig. 5 og avledet fra inter-kanaltidsdifferansene slik som de ble beregnet ved BCC-analyseblokken 116 i fig. 5.
Det samme gjelder multiplikasjonsparametrene ai, a2, ..., a;, ..., aN, som også er beregnet av sideinformasjonsprosesseringsblokken 123 basert på inter-kanalnivådifferansene slik som de ble beregnet av BCC-analyseblokken 116. ICC-parametrene beregnet av BCC-analyseblokken 116 er anvendt for å kontrollere funksjonaliteten av blokk 128 slik at visse korrelasjoner mellom de for-sinkede og nivåmanipulerte signaler er oppnådd ved utgangene av blokk 128. Det skal bemerkes her at rekkefølgen av trinnene 126, 127, 128 kan avvike fra rekkefølgen vist i fig. 6.
Det skal også bemerkes at i en rammevis prosessering av lydsignalet er BCC-analysen også utført rammevis, dvs. midlertidig variable, og videre at en frekvensvis BCC-analyse er oppnådd som kan sees av filterbankinndelingen i fig. 6. Dette betyr at BCC-parametrene er oppnådd for hvert spektralbånd. Dette betyr også at i tilfellet at lydfilterbanken 125 bryter ned inngangssignalet inn i for eksempel 32 båndpassignaler oppnår BCC-analyseblokken et sett av BCC-parametere for hvert av de 32 bånd. BCC-synteseblokken 122 i fig. 5, som er illustrert i større detalj i fig. 6, utfører selvfølgelig også en rekonstruksjon som også er basert på de nevnte 32 bånd, gitt som eksempel.
Et scenario anvendt for å bestemme individuelle BCC-parametere vil i det følgende bli illustrert med henvisning til fig. 4. ICLD-, ICTD- og ICC-parametrene kan normalt bli definert mellom kanalpar. Imidlertid er det foretrukket at ICLD og ICTD- parametrene er bestemt mellom en referansekanal og hver enkel kanal. Dette er illustrert i fig. 4A. ICC-parametere kan defineres på forskjellige måter. Generelt kan ICC-parametere bestemmes i koderen mellom alle mulige kanalpar, som illustrert i fig. 4B. Det har blitt foreslått å beregne kun ICC-parametere mellom de to sterkeste kanaler til enhver tid, som illustrert i fig. 4C, som viser et eksempel hvor, til enhver tid, en ICC-parameter mellom kanalene 1 og 2 er beregnet og, til enhver tid, en ICC-parameter mellom kanalene 1 og 5 er beregnet. Dekoderen syntetiserer deretter inter-kanalkorre-lasjonen mellom de sterkeste kanaler i dekoderen og anvender visse heuristiske regler for beregning og syntetisering av inter-kanalkoherensen for de gjenværende kanalpar.
Med hensyn på beregningen av for eksempel multiplikatorparametrene ai, aN basert på de overførte ICLD-parametere er referanse gjort til AES Convention Paper nr. 5574. ICLD-parametrene representerer en energifordeling av et originalt flerkanalsignal. Uten tap av generalitet er det foretrukket å ta fire ICLD-parametere som representerer energidifferansen mellom de respektive kanaler og den fremre venstre kanal, som vist i fig. 4A. I sideinformasjonsprosesseringsblokken 122 er multiplikatorparametrene ai, ..., aN avledet fra ICLD-parametrene slik at den totale energi av alle rekonstruerte utgangskanaler er de samme (eller proporsjonale til energien av summeringssignalet som er overført).
I realiseringen vist i fig. 7 er frekvens/tidskonverteringen oppnådd ved invers-filtreringsbankene IFB 129 av fig. 6 gjort overflødig. I stedet er spektralrepresenta-sj onene av de individuelle kanaler ved inngangen av disse inverse filterbanker anvendt og forsynt til hodetelefonsignalprosesseringsanordningen i fig. 7 for å utføre evalue-ringen av de individuelle flerkanaler med de respektive to filtere per flerkanal uten en ekstra frekvens-/tidstransformasjon.
Hva angår en fullstendig prosessering som skjer i frekvensdomenet skal det bemerkes at i dette tilfelle bør flerkanaldekoderen, for eksempel filterbanken 125 av fig. 6, og stereokoderen ha den samme tids/frekvensoppløsning. I tillegg er det foretrukket å anvende en og samme filterbank, noe som er særlig fordelaktig i det at kun en enkelt filterbank er påkrevet for hele prosesseringen, som illustrert i fig. 1. I dette tilfelle er resultatet en særlig effektiv prosessering siden transformasjonene i flerkanaldekoderen og stereokoderen ikke trenger å bli beregnet.
Henholdsvis inngangsdataene og utgangsdataene i det oppfinneriske konsept er følgelig fortrinnsvis kodet i frekvensdomenet ved hjelp av transformasjon/filterbank og er kodet under psykoakustiske retningslinjer ved anvendelser av maskeringseffekter, hvor det især i dekoderen bør bære en spektral fremstilling av signalene. Eksempler på dette er MP3-filer, AAC-filer eller AC3-filer. Henholdsvis inngangsdataene og utgangsdataene kan imidlertid også være kodet ved dannelse av summen og differansen, som er tilfellet i såkalte matriseprosesser. Eksempler på dette er Dolby ProLogic, Logic7 eller Circle Surround. Dataene av spesielt flerkanalfremstillingen kan i tillegg være kodet ved bruk av parametriske fremgangsmåter, som er tilfelle i MP3-surround, hvor denne fremgangsmåte er basert på BCC-teknikken.
Avhengig av omstendighetene kan den oppfinneriske fremgangsmåte for generering bli iverksatt i enten maskinvare eller programvare. Iverksettingen kan være på et digitalt lagringsmedium, især på en disk eller CD med kontrollsignaler som kan leses ut elektronisk, som kan virke sammen med et programmerbart datamaskinsystem slik at fremgangsmåten vil bli effektuert. Generelt er oppfinnelsen også et datamaskin-programprodukt med en programkode lagret på en bærer som er maskinelt lesbar for utføring av en oppfinnerisk fremgangsmåte når datamaskinprogramproduktet kjører på en datamaskin. Med andre ord kan oppfinnelsen også realiseres som et datamaskinprogram med en programkode for å utføre fremgangsmåten når datamaskinprogrammet kjører på en datamaskin.

Claims (11)

1. Anordning for generering av et kodet stereosignal av et lydstykke eller en lyddatastrøm med en første stereokanal og en andre stereokanal fra en flerkanalfremstilling av lydstykket eller lyddatastrømmen omfattende informasjon om mer enn to flerkanaler, omfattende: middel (11) for tilveiebringing av de flere enn to flerkanaler fra flerkanalfremstillingen, middel (12) for utføring av hodetelefonsignalprosessering for å generere et ukodet stereosignal med en ukodet første stereokanal (10a) og en ukodet andre stereokanal (10b),karakterisert vedat midlet for utføring (12) omfatter å: evaluere hver flerkanal med en første filterfunksjon (H;L) avledet fra en virtuell posisjon av en høyttaler for gjengivelse av flerkanalen og en virtuell første øreposisjon for en lytter for den første stereokanal, og en andre filterfunksjon (HiR) avledet fra en virtuell posisjon av høyttaleren og en virtuell andre øreposisjon av lytteren for den andre stereokanal, for å generere en første evaluert kanal og en andre evaluert kanal for hver flerkanal, hvor de to virtuelle øreposisjoner av lytteren er forskjellige, addere (22) de evaluerte første kanaler for å oppnå den ukodede første stereokanal (10a), addere (23) de evaluerte andre kanaler for å oppnå den ukodede andre stereokanal (10b), og anvende den første filterfunksjon (HiL) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang, og den andre filterfunksjon (HiR) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang, og en stereokoder (13) for koding av en ukodet første stereokanal (10a) og en ukodet andre stereokanal (10b) for å oppnå et kodet stereosignal (14), hvor stereokoderen er fremstilt slik at en datahastighet som er påkrevet for overføring av det kodede stereosignal er mindre enn en datahastighet som er påkrevet for overføring av det ukodede stereosignal.
2. Anordning ifølge krav 2,karakterisert vedat de første og andre filterfunksjoner tilsvarer en filterimpulsrespons som omfatter en topp ved en liten tidsverdi som representerer den direkte lyd, flere små topper ved medium tidsverdier som representerer refleksjoner, og en kontinuerlig region hvor individuelle topper ikke lenger er oppløst og representerer den diffuse gjenklang.
3. Anordning ifølge ett av de foregående krav,karakterisert vedat flerkanalsfremstillingen omfatter én eller flere basiskanaler så vel som parametrisk informasjon for beregning av flerkanalene fra en eller flere basiskanaler, og hvor midlet (11) for tilveiebringelse er fremstilt for beregning av de minst tre flerkanaler fra den ene eller de flere basiskanaler og den parametriske informasjon.
4. Anordning ifølge krav 4,karakterisert vedat midlet (11) for tilveiebringelse er fremstilt for på utgangsiden å tilveiebringe en blokkvis frekvensdomenefremstilling for hver flerkanal, og hvor midlet (12) for fremstilling er fremstilt for å evaluere den blokkvise frekvensdomenefremstilling ved en frekvensdomenefremstilling av de første og andre filterfunksjoner.
5. Anordning ifølge ett av de foregående krav,karakterisert vedat midlet (12) for utføring er fremstilt for å tilveiebringe en blokkvis frekvensdomenefremstilling av den ukodede første stereokanal og den ukodede andre stereokanal, og hvor stereokoderen (13) er en transformasjonsbasert koder og er også fremstilt for å prosessere den blokkvise frekvensdomenefremstilling av den ukodede første stereokanal og den ukodede andre stereokanal uten en konvertering fra frekvensdomenefremstillingen til en temporal fremstilling.
6. Anordning ifølge ett av de foregående krav,karakterisert vedat stereokoderen (13) er fremstilt for å utføre en felles stereokoding (15) av de første og andre stereokanaler.
7. Anordning ifølge ett av de foregående krav,karakterisert vedat stereokoderen (13) er fremstilt for å kvantisere (16) en blokk av spektralverdier ved anvendelse av en psykoakustisk maskeringsgrenseverdi og utsette det for entropikoding (17) for å oppnå det kodede stereosignal.
8. Anordning ifølge ett av de foregående krav,karakterisert vedat midlet (11) for tilveiebringelse er fremstilt som en BCC-dekoder.
9. Anordning ifølge ett av de foregående krav,karakterisert vedat midlet (11) for tilveiebringelse er fremstilt som en flerkanalsdekoder som omfatter en filterbank med flere utganger, hvor midlet (12) for utføring er fremstilt for å evaluere signaler ved filterbankutgangene ved de første og andre filterfunksjoner, og hvor stereokoderen (13) er fremstilt for å kvantisere (16) den ukodede første stereokanal i frekvensdomenet og den ukodede andre stereokanal i frekvensdomenet og utsette det for entropikoding (17) for å oppnå det kodede stereosignal.
10. Fremgangsmåte for generering av et kodet stereosignal av et lydstykke eller en lyddatastrøm med en første stereokanal og en andre stereokanal fra en flerkanal fremstilling av lydstykket eller lyddatastrømmen omfattende informasjon om mer enn to flerkanaler, å omfatte trinnene: tilveiebringe (11) de flere enn to flerkanaler fra flerkanalfremstillingen, utføre (12) hodetelefonsignalprosessering for å generere et ukodet stereosignal med en ukodet første stereokanal (10a) og en ukodet andre stereokanal (10b),karakterisert vedat trinnet for utføring (12) omfatter å: evaluere hver flerkanal med en første filterfunksjon (HiL) avledet fra en virtuell posisjon av en høyttaler for gjengivelse av flerkanalen og en virtuell første øreposisjon for en lytter for den første stereokanal, og en andre filterfunksjon (H;R) avledet fra en virtuell posisjon av høyttaleren og en virtuell andre øreposisjon av lytteren for den andre stereokanal, for å generere en første evaluert kanal og en andre evaluert kanal for hver flerkanal, hvor de to virtuelle øreposisjoner av lytteren er forskjellige, addere (22) de evaluerte første kanaler for å oppnå den ukodede første stereokanal (10a), addere (23) de evaluerte andre kanaler for å oppnå den ukodede andre stereokanal (10b), anvende den første filterfunksjon (H;L) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang, og den andre filterfunksjon (HiR) for å ta i betraktning direkte lyd, refleksjoner og diffus gjenklang stereokoding (13) av den ukodede første stereokanal (10a) og den ukodede andre stereokanal (10b) for å oppnå det kodede stereosignal (14), hvor trinnet for stereokoding er effektuert slik at en datahastighet som er påkrevet for overføring av det kodede stereosignal er mindre enn en datahastighet som er påkrevet for overføring av det ukodede stereosignal.
11. Et datamaskinprogram,karakterisert vedat det har en programkode for å utføre fremgangsmåten for generering av et kodet stereosignal ifølge krav 11, når datamaskinprogrammet kjører på en datamaskin.
NO20075004A 2005-03-04 2007-10-03 Anordning og fremgangsmåte for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm NO339958B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005010057A DE102005010057A1 (de) 2005-03-04 2005-03-04 Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
PCT/EP2006/001622 WO2006094635A1 (de) 2005-03-04 2006-02-22 Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms

Publications (2)

Publication Number Publication Date
NO20075004L NO20075004L (no) 2007-10-03
NO339958B1 true NO339958B1 (no) 2017-02-20

Family

ID=36649539

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20075004A NO339958B1 (no) 2005-03-04 2007-10-03 Anordning og fremgangsmåte for å generere et kodet stereosignal av et lydstykke eller en lyddatastrøm

Country Status (20)

Country Link
US (1) US8553895B2 (no)
EP (2) EP1854334B1 (no)
JP (1) JP4987736B2 (no)
KR (1) KR100928311B1 (no)
CN (1) CN101133680B (no)
AT (1) ATE461591T1 (no)
AU (1) AU2006222285B2 (no)
BR (1) BRPI0608036B1 (no)
CA (1) CA2599969C (no)
DE (2) DE102005010057A1 (no)
ES (1) ES2340796T3 (no)
HK (1) HK1111855A1 (no)
IL (1) IL185452A (no)
MX (1) MX2007010636A (no)
MY (1) MY140741A (no)
NO (1) NO339958B1 (no)
PL (1) PL1854334T3 (no)
RU (1) RU2376726C2 (no)
TW (1) TWI322630B (no)
WO (1) WO2006094635A1 (no)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
JP5728094B2 (ja) 2010-12-03 2015-06-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 到来方向推定から幾何学的な情報の抽出による音取得
EP2705516B1 (en) * 2011-05-04 2016-07-06 Nokia Technologies Oy Encoding of stereophonic signals
FR2976759B1 (fr) * 2011-06-16 2013-08-09 Jean Luc Haurais Procede de traitement d'un signal audio pour une restitution amelioree.
JP6007474B2 (ja) * 2011-10-07 2016-10-12 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラムおよび記録媒体
EP2805528B1 (en) * 2012-01-17 2016-03-30 Gibson Innovations Belgium NV Multi-channel audio rendering
US9602927B2 (en) * 2012-02-13 2017-03-21 Conexant Systems, Inc. Speaker and room virtualization using headphones
KR20140017338A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
JP6160072B2 (ja) * 2012-12-06 2017-07-12 富士通株式会社 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
JP6328662B2 (ja) * 2013-01-15 2018-05-23 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. バイノーラルのオーディオ処理
MX346825B (es) * 2013-01-17 2017-04-03 Koninklijke Philips Nv Procesamiento de audio biaural.
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
TWI774136B (zh) 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
EP3061089B1 (en) 2013-10-21 2018-01-17 Dolby International AB Parametric reconstruction of audio signals
ES2922373T3 (es) * 2015-03-03 2022-09-14 Dolby Laboratories Licensing Corp Realce de señales de audio espacial por decorrelación modulada
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
EP3748994B1 (en) 2015-08-25 2023-08-16 Dolby Laboratories Licensing Corporation Audio decoder and decoding method
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN110089135A (zh) * 2016-10-19 2019-08-02 奥蒂布莱现实有限公司 用于生成音频映象的系统和方法
US11523239B2 (en) 2019-07-22 2022-12-06 Hisense Visual Technology Co., Ltd. Display apparatus and method for processing audio
CN112261545A (zh) * 2019-07-22 2021-01-22 海信视像科技股份有限公司 显示装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023490A (en) * 1996-04-10 2000-02-08 U.S. Philips Corporation Encoding apparatus for encoding a plurality of information signals
WO2003086017A2 (en) * 2002-04-05 2003-10-16 Koninklijke Philips Electronics N.V. Signal processing

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US602349A (en) * 1898-04-12 Abrading mechanism
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
JPH04240896A (ja) * 1991-01-25 1992-08-28 Fujitsu Ten Ltd 音場制御装置
FR2688371B1 (fr) 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
US5703999A (en) 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
EP0649578B1 (en) 1992-07-07 2003-05-14 Lake Technology Limited Digital filter having high accuracy and efficiency
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
JPH06269097A (ja) * 1993-03-11 1994-09-22 Sony Corp 音響装置
US5488665A (en) 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3404837B2 (ja) * 1993-12-07 2003-05-12 ソニー株式会社 多層符号化装置
US5659619A (en) * 1994-05-11 1997-08-19 Aureal Semiconductor, Inc. Three-dimensional virtual audio display employing reduced complexity imaging filters
WO2004103023A1 (ja) * 1995-09-26 2004-11-25 Ikuichiro Kinoshita 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5742689A (en) * 1996-01-04 1998-04-21 Virtual Listening Systems, Inc. Method and device for processing a multichannel signal for use with a headphone
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
WO1999014983A1 (en) 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JP2002508616A (ja) * 1998-03-25 2002-03-19 レイク テクノロジー リミティド オーディオ信号処理方法および装置
AUPP271598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Headtracked processing for headtracked playback of audio signals
CN1065400C (zh) 1998-09-01 2001-05-02 国家科学技术委员会高技术研究发展中心 兼容ac-3和mpeg-2的音频编解码器
EP1026680A1 (en) * 1998-09-02 2000-08-09 Matsushita Electric Industrial Co., Ltd. Signal processor
DE19932062A1 (de) 1999-07-12 2001-01-18 Bosch Gmbh Robert Verfahren zur Aufbereitung von quellcodierten Audiodaten sowie Sender und Empfänger hierzu
JP2001100792A (ja) * 1999-09-28 2001-04-13 Sanyo Electric Co Ltd 符号化方法、符号化装置およびそれを備える通信システム
JP3335605B2 (ja) * 2000-03-13 2002-10-21 日本電信電話株式会社 ステレオ信号符号化方法
JP3616307B2 (ja) * 2000-05-22 2005-02-02 日本電信電話株式会社 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
JP2002191099A (ja) * 2000-09-26 2002-07-05 Matsushita Electric Ind Co Ltd 信号処理装置
JP3228474B2 (ja) * 2001-01-18 2001-11-12 日本ビクター株式会社 音声符号化装置及び音声復号化方法
JP2002262385A (ja) * 2001-02-27 2002-09-13 Victor Co Of Japan Ltd 音像定位信号の生成方法、及び音像定位信号生成装置
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
JP2003009296A (ja) * 2001-06-22 2003-01-10 Matsushita Electric Ind Co Ltd 音響処理装置および音響処理方法
ES2268340T3 (es) * 2002-04-22 2007-03-16 Koninklijke Philips Electronics N.V. Representacion de audio parametrico de multiples canales.
KR100522593B1 (ko) 2002-07-08 2005-10-19 삼성전자주식회사 다채널 입체음향 사운드 생성방법 및 장치
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
KR20040027015A (ko) * 2002-09-27 2004-04-01 (주)엑스파미디어 스트리밍시 오디오의 대역폭을 줄이기 위하여 몰입형오디오를 이용한 새로운 다운믹싱 기법
JP4084990B2 (ja) * 2002-11-19 2008-04-30 株式会社ケンウッド エンコード装置、デコード装置、エンコード方法およびデコード方法
JP4369140B2 (ja) 2003-02-17 2009-11-18 パナソニック株式会社 オーディオ高能率符号化装置、オーディオ高能率符号化方法、オーディオ高能率符号化プログラム及びその記録媒体
FR2851879A1 (fr) * 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US20050276430A1 (en) * 2004-05-28 2005-12-15 Microsoft Corporation Fast headphone virtualization
US20050273324A1 (en) * 2004-06-08 2005-12-08 Expamedia, Inc. System for providing audio data and providing method thereof
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023490A (en) * 1996-04-10 2000-02-08 U.S. Philips Corporation Encoding apparatus for encoding a plurality of information signals
WO2003086017A2 (en) * 2002-04-05 2003-10-16 Koninklijke Philips Electronics N.V. Signal processing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Faller, C.: "Coding of spatial audio compatible with different playback formats", in Preprint 117th Convention Audio Engineering Society (AES), October 2004, side 1-12. , Dated: 01.01.0001 *
Herre, J. et al.: "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio", Audio Engineering Society, 116th Convention preprint, Mai 2004., Dated: 01.01.0001 *
Herre, J. et al.: "Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio", in Preprint 117th Convention Audio Engineering Society (AES), October 2004, side 1-13., Dated: 01.01.0001 *

Also Published As

Publication number Publication date
MY140741A (en) 2010-01-15
ES2340796T3 (es) 2010-06-09
AU2006222285A1 (en) 2006-09-14
KR100928311B1 (ko) 2009-11-25
IL185452A (en) 2011-07-31
DE102005010057A1 (de) 2006-09-07
TW200701823A (en) 2007-01-01
DE502006006444D1 (de) 2010-04-29
AU2006222285B2 (en) 2009-01-08
WO2006094635A1 (de) 2006-09-14
EP1854334B1 (de) 2010-03-17
PL1854334T3 (pl) 2010-09-30
CA2599969A1 (en) 2006-09-14
MX2007010636A (es) 2007-10-10
JP2008532395A (ja) 2008-08-14
CN101133680B (zh) 2012-08-08
CN101133680A (zh) 2008-02-27
ATE461591T1 (de) 2010-04-15
EP2094031A3 (de) 2014-10-01
KR20070100838A (ko) 2007-10-11
CA2599969C (en) 2012-10-02
NO20075004L (no) 2007-10-03
BRPI0608036B1 (pt) 2019-05-07
JP4987736B2 (ja) 2012-07-25
EP2094031A2 (de) 2009-08-26
RU2376726C2 (ru) 2009-12-20
US20070297616A1 (en) 2007-12-27
BRPI0608036A2 (pt) 2009-11-03
HK1111855A1 (en) 2008-08-15
EP1854334A1 (de) 2007-11-14
IL185452A0 (en) 2008-01-06
US8553895B2 (en) 2013-10-08
TWI322630B (en) 2010-03-21
RU2007136792A (ru) 2009-04-10

Similar Documents

Publication Publication Date Title
JP4987736B2 (ja) オーディオ断片またはオーディオデータストリームの符号化ステレオ信号を生成するための装置および方法
US10741187B2 (en) Encoding of multi-channel audio signal to generate encoded binaural signal, and associated decoding of encoded binaural signal
RU2407226C2 (ru) Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
KR100848367B1 (ko) 레벨 파라미터를 발생하는 장치 및 방법 그리고 멀티채널표현을 발생하는 장치 및 방법
RU2505941C2 (ru) Формирование бинауральных сигналов
CN101044794B (zh) 用于双声道提示码编码方案和类似方案的散射声音整形的方法和设备
NO344091B1 (no) Kompatibel flerkanal-koding/dekoding.
NO337395B1 (no) Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal
RU2427978C2 (ru) Кодирование и декодирование аудио
MX2008010631A (es) Codificacion y decodificacion de audio