KR101054932B1 - 스테레오 오디오 신호의 동적 디코딩 - Google Patents

스테레오 오디오 신호의 동적 디코딩 Download PDF

Info

Publication number
KR101054932B1
KR101054932B1 KR1020097000218A KR20097000218A KR101054932B1 KR 101054932 B1 KR101054932 B1 KR 101054932B1 KR 1020097000218 A KR1020097000218 A KR 1020097000218A KR 20097000218 A KR20097000218 A KR 20097000218A KR 101054932 B1 KR101054932 B1 KR 101054932B1
Authority
KR
South Korea
Prior art keywords
audio
transfer function
head related
related transfer
source position
Prior art date
Application number
KR1020097000218A
Other languages
English (en)
Other versions
KR20090018861A (ko
Inventor
파시 오알라
줄리아 투르쿠
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20090018861A publication Critical patent/KR20090018861A/ko
Application granted granted Critical
Publication of KR101054932B1 publication Critical patent/KR101054932B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 상응하는 집합을 포함하는 파라미터 인코딩된 오디오 신호를 입력하는 단계; 상기 채널 구성 정보로부터, 오디오 신호 내의 오디오 소스들의 수평 및 수직 위치들 중 적어도 하나를 기술하는 오디오 소스 위치 데이터를 유도하는 단계; 두부 관련 전달 함수(Head-Related Transfer Function) 필터들의 소정 집합으로부터, 상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터들의 좌우 쌍을 선택하는 단계로서, 상기 두부 관련 전달 함수 필터의 좌우 쌍은 공간 오디오 이미지에서 검색되는 단계; 및 상기 사이드 정보 및 상기 채널 구성 정보에 따라서 상기 적어도 하나의 처리 신호로부터 스테레오 오디오 신호(binaural audio signal)를 합성하는 단계를 포함하는 방법이 개시된다.

Description

스테레오 오디오 신호의 동적 디코딩{Dynamic decoding of binaural audio signals}
본 발명은 공간적 오디오 부호화에 관련되고, 특히 스테레오 오디오 신호들의 디코딩의 동적 제어에 관련된다.
공간적 오디오 부호화에서, 2-채널/다중-채널 오디오 신호는, 상이한 오디오 채널들에서 재생될 오디오 신호들이 서로 다르도록 처리됨으로써, 청취자들에게 오디오 소스 주변의 공간적 효과의 느낌을 제공한다. 공간적 효과는 오디오를 다중-채널 또는 스테레오 재생(양이 재생, binaural reproduction)을 위한 적당한 포맷들로 직접 기록하는 것에 의해 만들어질 수 있거나, 또는 공간적 효과는 임의의 2-채널/다중-채널 오디오 신호에서 인공적으로 만들어질 수 있는데, 이것은 공간화(spatializaton)라는 기술로 알려져 있다.
헤드폰 재생을 위한 인공적 공간화는 두부 관련 전달 함수(HRTF, Head Related Transfer Function) 필터링에 의해 수행될 수 있다는 것이 일반적으로 알려져 있는데, 이것은 청취자의 좌우 귀를 위한 스테레오(binaural) 신호들을 생성한다. 사운드 소스 신호들은 그것들의 기점(origin)의 방향에 상응하는 HRTF들로부터 유도된 필터들을 이용하여 필터링된다. HRTF는 자유 장(free field) 내의 사 운드 소스로부터 사람 또는 인공 헤드(artificial head)의 귀까지 측정된 전달 함수를, 헤드를 대체하고 헤드의 중앙에 놓이는 마이크로폰으로까지의 전달 함수를 이용하여 나눈 값이다. 인공적 실내 효과(예컨대 이른 반향 및/또는 늦은 잔향음)가 공간화된 신호에 추가되어 소스 외부화(externalization) 및 자연스러움(naturalness)을 개선할 수 있다.
스테레오 큐 코딩(BCC)은 다중 채널 라우드스피커 시스템을 위해 설계된, 매우 발달된 형태의 파라메트릭(parametric) 공간 오디오 코딩 방법이다. BCC는 공간적 다중-채널 신호를, 단일(또는 몇 개의) 다운믹스된 오디오 채널 및 원본 신호와의 주파수 및 시간의 함수로서 예측되는 지각상 관련된(perceptually relevant) 채널간 차이들의 집합으로서 인코딩한다. 이 방법은 임의의 라우드스피커 레이아웃을 위해 믹스된 공간적 오디오 신호가 동일하거나 다른 수의 라우드스피커들로 구성된 어느 다른 라우드스피커 레이아웃을 위해 변환되는 것을 허용한다. 또한, 헤드폰 청취를 위해 다중 채널 오디오 신호를 변환하도록 허용하는데, 이 과정에서 원본 라우드스피커는 HRTF 필터링을 사용하여 가상 라우드스피커와 대체되고, 이 라우드스피커 채널 신호가 HRTF 필터를 통하여 재생된다.
문서 ISO/IEC JTC 1/SC 29/WG 11/M13233, Ojala P., Jakka J. "Further information on binaural decoder functionality", 2006년 4월, 몬틀록스(Montreux)는 예를 들어 BCC 디코더와 같은 스테레오 디코더를 위하여 설계된 오디오 이미지 렌더링 시스템을 개시하는데, 여기서 이 디코더는 가능한 각 라우드스피커 위치를 표시하기에 충분한 개수의 HRTF 필터 쌍을 포함한다. 오디오 이미지 렌더링은 오디오 이미지 제어 비트 스트림에 기반하여 수행되는데, 이것은 사이드 정보로서 디코더로 송신되는 차분 및 절대 사운드 소스(라우드스피커와 같은) 위치들을 포함할 수 있으며, 이에 따라서 HRTF 필터 쌍이 선택된다. 그러므로, 콘텐츠 생성자는 물리적으로 고정된 라우드스피커 위치를 가지는 라우드스피커 표현의 경우에 비하여 스테레오 콘텐츠를 위한 동적 오디오 이미지를 설계할 더 많은 유연성을 가진다.
전술된 설계는 디코더가 HRTF 필터 쌍의 충분한 개수를 포함하는 한, 오디오 이미지 렌더링을 위한 매우 유연하고 다양한 변형예를 제공한다. 그러나, 스테레오 디코더 표준은 특정 HRTF 집합을 강제하지 않는다. 그러므로, 콘텐츠 생성은 스테레오 디코더 내의 가용한 HRTF 필터 데이터베이스에 대한 어느 정보도 가지지 않는다. 따라서, 오디오 이미지 제어 비트 스트림과 함께 운반되는 사운드 소스 위치 정보는 스테레오 디코더 내의 가용한 HRTF 필터 집합 해상도를 초과하거나 이와 완전히 동일하지 않을 수 있다. 그 결과로서, 디코더는 비호환 HRTF 필터 집합에 기인한 오디오 이미지 제어 동작을 생략할 수 있으며, 이것을 통하여 지각된 오디오 이미지는 콘텐츠 생성자가 최초에 의도한 것과 현저히 다르게 될 수 있다.
이제, 비록 디코더가 제한된 HRTF 필터의 집합만을 포함하더라도, 동적 스테레오 제어가 가능해지는 개선된 방법 및 이 방법을 구현하는 기술적 장비가 고안된다. 본 발명의 다양한 측면들은 독립항에 기재된 바와 같이 특징지워지는 방법, 장치, 디코더, 인코더, 컴퓨터 프로그램 생성물 및 모듈을 포함한다. 본 발명의 다양한 실시예들은 종속항에 개시된다.
제1 측면에 따르면, 본 발명에 따르는 방법은 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 상응하는 집합을 포함하는 파라미터 인코딩된 오디오 신호를 입력하는 단계; 상기 채널 구성 정보로부터, 오디오 신호 내의 오디오 소스들의 수평 및 수직 위치들 중 적어도 하나를 기술하는 오디오 소스 위치 데이터를 유도하는 단계; 두부 관련 전달 함수(Head-Related Transfer Function) 필터들의 소정 집합으로부터, 상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터들의 좌우 쌍을 선택하는 단계로서, 상기 두부 관련 전달 함수 필터의 좌우 쌍은 공간 오디오 이미지에서 검색되는 단계; 및 상기 사이드 정보 및 상기 채널 구성 정보에 따라서 상기 적어도 하나의 처리 신호로부터 스테레오 오디오 신호(binaural audio signal)를 합성하는 단계에 기반한다.
일 실시예에 따르면, 두부 관련 전달 함수 필터의 좌우 쌍이 수평면에서 단계별 동작(stepwise motion)에서 검색된다.
일 실시예에 따르면, 사운드 소스 이동의 각속도는 오디오 소스 위치 데이터에 가장 근접한 두부 관련 전달 함수 필터의 좌우 쌍의 검색이 이루어지는 동안에 상수로 유지된다.
일 실시예에 따르면, 단계별 동작은 복수 개의 고도(elevation)에서 상기 수평면 내 10도 또는 20도 단계로서 수행된다.
일 실시예에 따르면, 본 발명에 따르는 방법은 상기 오디오 소스 위치 데이터가 상기 사운드 이미지의 특이 지점(singularity position)(zenith)을 교차하는 사운드 소스 이동을 암시하는지 모니터링하는 단계; 및 그러하다면, 상기 특이 지점이 교차된 이후에 상기 사운드 소스 위치의 수평 각도를 산술적으로 180도만큼 회전시키는 단계를 더 포함한다.
본 발명에 따르는 장치는 중요한 장점들을 제공한다. 주된 장점은, 수평면에서 사운드 소스 이동의 각속도가 일정하기 때문에, 제어 정보의 비트율이 최소화될 수 있다는 것이다. 더 나아가, 심지어 디코더가 HRTF 필터들의 제한된 집합만을 가지고 있는 경우에도 동적 스테레오 제어가 가능하다. 콘텐츠 생성의 관점에서 볼 때, 이러한 동적 제어는 용이하게 이용될 수 있는데, 그 이유는 오디오 이미지의 최적의 가능한 근사화가 언제든지 획득되기 때문이다.
제2 측면은 파라미터 인코딩된 오디오 신호를 생성하기 위한 방법을 제공하는데, 이 방법은 복수 개의 오디오 채널을 포함하는 다중-채널 오디오 신호를 입력하는 단계; 복수 개의 오디오 채널의 적어도 하나의 결합 신호를 생성하는 단계; 및 스테레오 오디오 신호의 합성물(synthesis)에서 오디오 소스 위치를 제어하기 위한 채널 구성 정보를 포함하는 사이드 정보의 하나 또는 그 이상의 상응하는 집합을 생성하는 단계로서, 상기 채널 구성 정보는, 두부 관련 전달 함수 필터의 소정 집합으로부터 상기 스테레오 오디오 신호의 합성 동안에 공간 오디오 이미지 내의 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하기 위한 정보를 포함하는 단계를 포함한다.
일 실시예에 따르면, 상기 채널 구성 정보는 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 상기 좌우 쌍을 단계별 동작에서 검색하기 위한 정보를 포함한다.
그러므로, 이러한 측면은 콘텐츠 생성자에게 스테레오 다운믹스의 증가되는 단계들의 이용을, 적어도 몇 가지 경우에는 제어할 가능성을 제공하므로, 이에 의하여 원하는 증가 단계(incremental step) 및 그들의 방향이 인코더 내의 비트스트림의 채널 구성 정보 내에 포함된다.
본 발명의 이러한 측면 및 다른 측면 그리고 이에 관련된 실시예들은, 후술되는 실시예에 대한 상세한 설명으로부터 더욱 명확해질 것이다.
도 1은 종래 기술에 따른 일반적인 스테레오 큐 부호화(BCC) 기법을 도시한다.
도 2는 종래 기술에 따른 BCC 합성 기법의 일반 구조를 도시한다.
도 3은 채널 배치 정보를 가지는 개선된 스테레오 큐 코딩(BCC) 기법을 도시한다.
도 4는 적합하게 선택된 HRTF 필터링을 이용한 스테레오 디코딩 기법을 도시한다.
도 5a 및 5b는 수평면에서 공간적 오디오 이미지 내의 사운드 소스들의 위치의 교번(alternation)의 예들을 도시한다.
도 6은 수평 및 수직면 모두에 존재하는 가능한 사운드 소스 위치의 투 영(projection)을 도시한다.
도 7은 본 발명의 일 실시예에 따르는 방법을 흐름도로 표시하는 도면이다.
도 8은 본 발명의 일 실시예에 따르는 장치를 간략화된 블록도로 표시한다.
실시예들이 더욱 구현 가능하도록 하기 위하여, Ojala P 및 Jakka J.의 전술된 문서 "Further information on binaural decoder functionality" 및 그 동작이 간략히 설명된다. 스테레오 디코더에 대한 배경 정보로서, 실시예에 따르는 인코딩 및 디코딩 기법을 구현하기 위한 예시적 플랫폼으로서 스테레오 큐 코딩(BCC)의 개념이 우선 간략히 소개된다. 그러나, 본 발명이 단지 BCC 타입의 공간 오디오 코딩 방법에만 한정되는 것이 아니며, 오히려 하나 또는 그 이상의 오디오 채널의 원본 집합 및 적합한 공간 사이드 정보로부터 결합된 적어도 하나의 오디오 신호를 제공하는 모든 오디오 코딩 기법에 구현될 수 있음에 주의하여야 한다. 예를 들어, 본 발명은 MPEG 서라운드 코딩 기법에도 이용될 수 있는데, 이 기법은 BCC 기법의 장점을 역시 이용하지만, 이것을 더 연장시킨다.
스테레오 큐 코딩(BCC)은 공간 오디오의 파라메트릭 표현(parametric representation)의 일반적 개념으로서, 단일 오디오 채널로부터 임의의 개수의 채널을 가지는 다중-채널 출력을 몇 가지 사이드 정보과 함께 배달한다. 도 1이 이러한 개념을 예시한다. 수 개의(M) 입력 오디오 채널들이 다운믹스 프로세스에 의하여 단일 출력(S; "sum")으로 결합된다. 병렬적으로, 다중-채널 사운드 이미지를 기술하는 가장 현저한(salient) 채널간 큐(inter-channel cue)들이 입력 채널로부 터 추출되고, BCC 사이드 정보로서 간략하게 코딩된다. 그러면, 합 신호 및 사이드 정보 모두가 수신기 측으로 송신되는데, 이 때 합 신호를 코딩하기 위한 적절한 저 비트율 오디오 코딩 기법을 이용하여 송신될 수 있다. 수신기 측에서는, BCC 디코더는 라우드스피커의 개수(N)를 사용자 입력으로서 알고 있다. 최종적으로, BCC 디코더는 채널 출력 신호를 재-합성함으로써 송신된 합 신호 및 공간 큐 정보로부터 라우드스피커를 위한 다중-채널(N) 출력 신호를 생성하는데, 채널 출력 신호들이 채널간 시간차(Inter-channel Time Difference, ICTD), 채널간 높이차(Inter-channel Level Difference, ICLD) 및 채널간 코히어런스(Inter-channel Coherence, ICC)와 같은 관련된 채널간 큐를 운반한다. 따라서, BCC 사이드 정보(즉, 채널간 큐)는 다중 채널 오디오 신호의 재구성 동작을 특히 라우드스피커에서 재생하기 위하여 최적화하는 관점에서 선택된다. BCC 기법들은 소정 비트율을 출력하는데, 이것은 한 오디오 채널의 송신을 위하여 요구되는 비트율보다 다소 높을 뿐이며, 그 이유는 BCC 사이드 정보가 오직 매우 낮은 비트율(예를 들어 2 kb/s)을 요구하기 때문이다.
도 2는 BCC 합성 기법의 일반적 구조를 도시한다. 송신된 모노 신호("합")는 우선 시간 도메인에서 프레임으로 윈도윙되고(windowed), 그 이후에 FFT(고속 푸리에 변환) 프로세스 및 필터뱅크(FB)에 의하여 특정 하부 대역의 스펙트럼 표현으로 매핑된다. 대체적으로, 시간-주파수 분석 동작은 예를 들어 QMF 분석을 이용하여 수행될 수 있다. 재생 채널의 일반적인 경우에서, ICLD 및 ICTD가 채널들의 쌍들 사이에서 각 하부대역에서 고려되며, 즉, 기준 채널에 대해 상대적으로 각 채 널에 대하여 고려된다. 하부 대역은, 충분히 높은 주파수 해상도가 획득되도록, 예를 들어 ERB(등가 사각 대역, Equivalent Rectangular Bandwidth) 스케일의 두 배와 일치하는 하부 대역 너비가 전형적으로 적합한 것으로 판단할 수 있다. 각 출력 채널이 생성되기 위하여, 개별 시간 지연(ICTD) 및 높이차(ICLD)들이 스펙트럼 계수 상에 부과되고, 그 이후에 합성된 오디오 채널들 사이의 코히어런스 및/또는 상관(ICC)의 가장 관련된 측면들을 재도입하는 코히어런스 합성 프로세스가 수행된다. 최종적으로, 모든 합성 출력 채널들은 IFFT(역 FFT) 프로세스 또는 대신에 역 QMF 필터링을 이용하여 시간 도메인 표현으로 다시 변환되어 다중-채널 출력이 된다. BCC 접근법에 대한 더 상세한 설명에 대해서는,F. Baumgarte 및 C. Faller: "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003, 및 C. Faller 및 F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003을 참조한다.
Ojala P 및 Jakka J.의 전술된 문서 "Further information on binaural decoder functionality"에 소개된 스테레오 디코더는 BCC 접근법에 기반한다. 디코더 입력 신호는 인코더에 의하여 생성되는데, 이것은 복수 개의 입력 오디오 채널들(M)을 하나 또는 그 이상의 결합 신호(S)로 결합시키고, 이와 동시에 도 3에 도시된 바와 같이 적용가능한 HRTF 파라미터를 가지는 BCC 사이드 정보(SI, side information)로서 다중-채널 사운드 이미지를 인코딩한다.
그러나, 다중-채널 라우드스피커 재생의 경우와 반대로, 스테레오 재생은 오디오 이미지의 생성에 더 많은 유연성을 허락한다. 예를 들어, 완전 3D 공간이 사운드 소스 포지셔닝을 위하여 가용한데, 반면에 5.1 서라운드와 같이 다중-채널 라우드스피커 구성의 오디오 이미지는 소(sparse)한 해상도의 방위(수평)면에 한정된다. 스테레오 재생의 추가적인 가능성을 이용하기 위하여, 기본 라우드스피커 위치보다 더 많은 방향을 담당하는 HRTF 집합이 요구되고, 오디오 이미지를 제어하기 위한 시스템도 필요하다.
이에 따라서, 인코더는 채널 구성 정보(channel configuration information, CC), 즉 오디오 소스 위치 정보를 더 생성하는데, 이것은 스테레오 재생(binaural reproduction)이 선택되었을 경우의 오디오 이미지의 스티어링(steering)을 허용한다. 콘텐츠 생성자는 이러한 스티어링 정보를 생성하는데, 이것은 비트스트림에 추가된다. 오디오 소스 위치 정보는 오디오 제공이 이루어지는 동안에 정적일 수 있으며, 이것을 통하여 오디오 스트림의 개시부에서 헤더 정보로서 단일 정보 블록만이 요구된다. 대안적으로, 오디오 신(audio scene)은 동적일 수 있는데, 이를 통하여 위치 갱신이 송신된 비트 스트림 내에 포함된다. 소스 위치 갱신들은 속성에 있어서 가변 레이트이다. 그러므로, 산술 코딩(arithmetic coding)을 이용함으로써, 이 정보는 효과적으로 전송용으로 코딩될 수 있는데, 이것은 비트율을 가능한 한 낮게 유지하는 관점에서 중요하다.
도 4는 디코딩 프로세스를 더욱 상세히 도시한다. 하나 또는 두 다운믹스 오디오 채널(downmixed audio channel)(합 신호들) 중 하나를 가지는 입력 신호가 우선 QMF(직교 미러 필터, Quadrature Mirror Filter) 도메인으로 변환되는데, 그 이후에 HRTF 파라미터와 함께 공간 사이드 정보 파라미터들이 적용되어 스테레오 오디오를 구성한다. 그러면, 스테레오 오디오 신호들은 스테레오 다운믹스 프로세스 처리되는데, 이 동작은 순서대로 채널 구성 정보(CC)에 의하여 제어된다. 정적 라우드스피커 위치에 상응하는 HRTF 필터 대신에, 스테레오 다운믹스 프로세스에서는 각 오디오 소스에 대한 필터 쌍이 채널 구성 정보(CC)에 기반하여 선택됨으로써, HRTF의 이용된 쌍들이 채널 구성 정보(CC)에 따라서 변경될 수 있는데, 그 교번(alternation)이 헤드폰 청취자에 의하여 감지되는 공간 오디오 이미지 내의 사운드 소스의 위치를 이동시킨다. 실무상, 수평면에서의 10도 및 수직 방향(고도, elevation)에서의 30도의 채널각 해상도(channel angle resolution)만 있으면 완전 3-D 오디오 신(schene)에서의 사운드 소스의 부드러운 이동을 허용하기에 충분하다. HRTF 필터쌍이 선택되면, 필터링 동작이 도 4에 도시된 바와 같이 수행된다. 그러면, QMF 합성이 스테레오 신호를 시간 도메인으로 변환하도록 적용된다.
공간 오디오 이미지 내의 사운드 소스의 위치의 수평(방위) 교번이 도 5a 및 5b에서 도시된다. 도 5a에서, 공간 오디오 이미지가 스테레오 오디오 신호로서 헤드폰 청취자에 대하여 생성되는데, 여기서 종래의 5.1 라우드스피커 구성에 따라서 팬텀 라우드스피커(phantom loudspeaker) 위치(즉, 사운드 소스)들이 생성된다. 청취자의 전면(FL 및 FR)에 위치한 라우드스피커들은 중앙 스피커(C)로부터 30도 거리에 배치된다. 후면 스피커들(RL 및 RR)은 중앙으로부터 계산할 때 110도 거리에 위치된다. 스테레오 효과 때문에, 사운드 소스들은 실제 5.1 재생에서와 동일 한 위치에 있는 헤드폰을 이용하여 스테레오 재생되는 것으로 보인다.
도 5b에서, 공간적 오디오 이미지는 전면 사운드 소스들(FL 및 FR)(팬텀 라우드스피커)이 향상된 공간적 이미지를 생성하기 위해 더 멀리 있게 이격되도록 스테레오 도메인에서 오디오 이미지를 렌더링함으로써 변경된다. 이러한 이동은 채널 구성 정보에 따라서 FL 및 FR 채널 신호에 대하여 상이한 HRTF 쌍을 선택함으로써 달성된다. 또는, 사운드 소스 중 어느 것 또는 모든 것들이 심지어 재생이 진행되는 동안에도 상이한 위치로 이동될 수 있다. 그러므로, 콘텐츠 생성자는 스테레오 오디오 콘텐츠를 렌더링할 때 동적 오디오 이미지를 설계하기 위한 더 많은 유연성을 가진다.
도 6은 수평 및 수직 평면 모두에서 가능한 사운드 소스 위치의 프로젝션을 도시한다. 가정된 청취자는 프로젝션의 원점에 위치된다. 이 경우에, 수평면(0도 고도)과 30도 고도의 다음 레벨은 20도의 각 해상도를 가진다. 이러한 해상도는 사운드 소스 위치를 60도 고도로 더 높이 들어올릴 때에는 60도로 떨어진다. 최종적으로, 청취자 직접 상부의 제니스(zenith)에는 오직 한 위치만에 존재한다. 반구의 좌측 절반이 도면에는 도시되지 않지만, 이것은 도 6의 단지 프로젝션의 미러링된 복제본이라는 점에 주의하여야 한다.
도 5a, 5b 및 도 6에 도시된 실시예들은 전술된 스테레오 디코더를 이용하여 달성되는 장점을 명확하게 도시한다. 여기서 콘텐츠 생성자는, 물리적으로 고정된 라우드스피커 위치를 가지는 라우드스피커 표현보다 더 동적인 오디오 이미지가 스테레오 콘텐츠에 대하여 설계되도록 디코더 내의 스테레오 다운믹스 프로세스를 제 어할 수 있다. 공간 효과(spatial effect)는 예를 들어 사운드 소스, 즉, 가상 스피커를 수평 또는 수직 평면 상에서 이동시킴으로써 향상될 수 있다. 사운드 소스는 재생이 진행되는 동안에도 이동됨으로써, 특수 오디오 효과를 구현할 수 있다.
그러나, 사운드 소스들의 원활한 움직임을 허용하기 위해, 디코더는 사운드 소스의 위치를 공간적 오디오 이미지에서 수평면 및 수직면 모두에서 자유롭게 바꾸기 위해 충분한 수의 HRTF 쌍을 포함해야만 한다. 전술된 스테레오 디코더의 경우에, 성공적으로 오디오 이미지 제어가 수행되려면 상부 반구에 64개의 HRTF 쌍이 필요하다고 결정되어 왔다.
그러나, 디코더가 전체 구(또는 반구)를 연장할 HRTF 필터쌍의 전체 범위를 가지지 않을 수 있다는 것 또는 해상도가 콘텐츠 생성자가 스테레오 렌더링 제어를 생성할 때 의도한 것보다 더 열화될 수 있다는 사실로부터, 한 가지 문제점이 이제 대두될 수 있다. 스테레오 디코더 표준은 어떠한 특정 HRTF 집합도 강제하지 않는다. 그러므로, 콘텐츠 생성자는 스테레오 디코더 내의 가용 HRTF 필터 데이터베이스에 대한 어떠한 정보도 가지지 않으며, 이를 통하여 비트 스트림 문법(syntax)에 의하여 정의되는 해상도가 완전하게 달성되지 않을 수 있다.
비트스트림 내의 채널 구성 정보가 급격한 변화, 즉, 사운드 소스의 위치에서의 이동을 포함할 경우에는 다른 문제점이 대두된다. 전술된 바와 같이, 제어 정보의 비트율은 가능한 한 낮게 유지되어야 한다. 사운드 소스의 위치에서의 어떠한 급격한 변경도 비트스트림 내에 추가적 코드워드(codeword)가 추가되도록 요청하는데, 이 코드워드는 원하는 이동을 해당 디코더에게 표시한다. 코드워드의 차분 코딩(differential coding)의 속성 때문에, 이동이 클수록 해당 변경을 표시하기 위하여 필요한 코드워드의 길이가 전형적으로는 더 길어진다. 결과적으로, 사운드 소스 내의 위치의 모든 급격한 변경은 제어 정보의 비트율을 증가시킨다.
이제 이러한 문제점들이 본 발명의 한 실시예에 의하여 회피될 수 있는데, 이 실시예에 따르면 디코더가 채널 구성 정보에 표시된 사운드 소스 위치에 가장 근접한 HRTF 필터쌍을 단계별 동작(stepwise motion)에서 검색하도록 구현되며, 이를 통하여 사운드 소스 이동의 각속도가 디코더 내의 실제 소스 위치 해상도에 무관하게 일정하게 유지된다. 급격한 변경, 즉, 긴 코드워드가 비트스트림의 제어 정보 내에 표시될 필요가 없기 때문에, 제어 정보의 비트율은 바람직하게 최소화될 수 있다. 예를 들어, 제어 정보의 신택스는, 특히 급격한 이동을 표시하는 긴 코드워드에 대하여 예비된 비트들을 제거함으로써, 단순화될 수 있다.
일 실시예에 따르면, 표시된 사운드 소스 위치에 가장 근접한 HRTF 필터쌍에 대한 단계적 동작 검색은 모든 가능한 고도에서 수평면의 10도의 단계로서 수행될 수 있다. 도 6에 도시된 바와 같이, 사운드 소스 위치의 해상도는 필수적으로 방위면(azimuth plane)에서보다 더 높은 고도(예를 들어 45도 이상)에서 열화된다. 이제, 제어 정보에 의하여 표시된 사운드 소스 이동이 수직 방향에서만 이루어진다면, 상응하는 수평 각도에서 가용한 "더 높은" 사운드 소스 위치가 존재하지 않는 현상도 발생할 수 있다. 그러므로, 특정 고도에서 가용한 최근접 HRTF 필터쌍이 검색되어야 하고, 이것은 수평면에서 증분 단계로써 바람직하게는 10도의 단계를 가지고 수행되는 것이 바람직하다. 또한, 원하는 사운드 소스 위치의 가장 가능한 근사화 동작이 추가적 제어 정보 없이 발견될 수 있다.
당업자들은, 전술된 10도의 단계는 최적 HRTF 필터쌍을 검색하는데 이용될 수 있는 적합한 증가 단계의 일 예에 불과하다는 것을 이해한다. 디코더 구조에 따라서는, 예를 들어 20 도가 적합한 증분 단계일 수 있다. 이에 따라서, 모든 적절한 값들이 증가 단계로서 이용될 수 있는데, 바람직하게는 약 5도 및 30도 사이의 모든 값이 적합한 다른 값으로서 이용될 수 있다.
전술된 실시예들은 중요한 장점을 제공한다. 수평면에서의 사운드 소스 이동의 일정한 각속도 덕분에, 제어 정보의 비트율이 최소화될 수 있다. 더 나아가, 동적 스테레오 제어는 심지어 디코더가 HRTF 필터의 제한된 집합만을 포함할 경우에도 이용될 수 있다. 콘텐츠 생성의 관점에서 볼 때, 동적 제어가 용이하게 이용될 수 있는데, 그 이유는 오디오 이미지의 가장 가능한 근사화가 언제나 획득되기 때문이다.
사운드 소스가 반구의 "제니스(zenith)" 상에서 직접적으로 또는 근접하게 이동되는 특정 경우가 대두되는데, 여기서 요구되는 각속도는 무한대에 이른다. 예를 들어, 사운드 소스가 45도의 각 방향에 위치되고 고도각이 단계별로 증가하여 최종적으로 90도를 지나면(제니스에서), 각 방향은 45+180=225도로 변경되어야 한다. 180도의 변경은 한정된 차분 코딩을 이용할 때 항상 가능한 것은 아니다.
일 실시예에 따르면, 디코더는 특이 지점(제니스)가 사운드 소스 이동 동안에 크로싱되는지를 모니터링하기 위하여 구현되는데, 만일 그러하다면, 해당 디코더는 사운드 소스 위치의 수평각을 180도 만큼 연산 회전하도록 구현되고, 즉, 디 코더는 특이 위치가 크로싱된 이후에 원하는 소스 각에 180도를 가산한다. 이러한 연산 동작은, 증분 단계별 동작의 부드러운 연속성을 허용한다.
일 실시예에 따르면, 이러한 연산 동작은 디코더 소프트웨어에 대한 사소한 추가 동작(minor addition)으로서 수행된다. 차분 위치 코딩에서의 디코더 구현 동작은 예를 들어 다음과 같이 수행될 수 있다.
/* 비트스트림으로부터 차분 동작(differential motion) 독출 */
Angular_step = decode_angular(bit_stream) /* step in degrees */
Elevation_step = decode_elevation(bit_stream) /* step in degrees */
/* 수직각 갱신 */
Elevation_angle += Elevation_step;
/* 특이 위치(정점)의 교차를 점검 */
If (Elevation_angle > 90) /* sound crosses singularity */
Angular_angle_correction = 180;
Else
Angular_angle_correction = 0;
/* 수평각 갱신 */
Angular_angle += Angular_step + Angular_angle_correction;
따라서, 180도의 절대 소스 위치 갱신이 불필요하고, 반면에 특이 위치를 다루는 문제점은 직접적인 연산 과정을 이용하여 처리된다.
당업자는, 특정 실시예들이 서로 대체적인 것이라고 명시적 또는 묵시적으로 언급되지 않는 한, 전술된 실시예들 모두가 하나 또는 그 이상의 다른 실시예들과의 조합으로서 구현될 수 있다는 것을 이해할 수 있을 것이다.
실시예들 중 일부가 도 7의 흐름도에 더 도시되는데, 도 7은 디코더 동작의 관점에서 도시된다. 동작의 개시점은 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 채널 구성 정보를 더 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 상응하는 집합을 포함하는 파라미터 인코딩된 오디오 신호가 디코더에 입력(700)되는 것이다. 전술된 바와 같이, 채널 구성 정보는 스테레오 오디오 신호에서의 오디오 소스의 수평 및/또는 수직 위치를 기술하는 오디오 소스 위치 데이터를 포함한다. 오디오 소스 위치 데이터는 채널 구성 정보로부터 유도(702)된다.
일 실시예에 따르면, 그 이후에 특이 위치의 가능한 교차(crossing)가 점검된다. 이에 따라서, 디코더는 오디오 소스 위치 데이터가 사운드 이미지 내의 특이 위치(정점)를 교차하는 이러한 사운드 소스 이동을 암시하는지 여부를 모니터링한다(704). 만일 이러한 사운드 소스 이동이 오디오 소스 위치 데이터 내에 표시되면, 사운드 소스 위치의 수평각이 특이 위치가 교차된 이후에 연산을 통하여 180도 만큼 회전된다.
특이 위치의 처리가 필요한지 여부와 무관하게, 디코더는 두부 관련 전달 함수 필터들의 소정 집합으로부터 수평면에서 단계적 동작으로 HRTF 필터의 좌우 쌍을 계속 검색(708)한다. 그러면, 오디오 소스 위치 데이터에 가장 근접하게 정합되는 HRTF 필터의 좌우 쌍이 선택된다(710). 최종적으로, 스테레오 오디오 신호가 사이드 정보 및 채널 구성 정보에 따라서 적어도 하나의 처리 신호로부터 합성(712)됨으로써, 해당 사운드 소스가 오디오 소스 위치 데이터에 의하여 표시된 바와 같이 적어도 근사적으로 그 정확한 위치에서 재생되도록 한다.
최적 HRTF 필터쌍을 증분 단계로써 검색하고 특이 위치를 처리하는 전술된 실시예들이 디코더 특이적 특징으로서 실행될 수 있으며, 이를 통하여 디코더는 인코더로부터의 어떠한 명령도 없이 선결된 단계를 이용하여 검색한 이후에 최적 HRTF 필터쌍을 자동으로 선택하도록 구현된다. 그러나, 적어도 증분 단계의 이용은, 몇 가지 경우에는, 콘텐츠 생성자에 의하여 제어될 수 있으며, 이를 통하여 원하는 증가 단계 및 그들의 방향이 인코더로부터 수신되는 비트스트림의 채널 구성 정보(CC) 내에 포함될 수 있다. 또한, 콘텐츠 생성자가 180도의 절대 소스 위치의 갱신을 비트스트림에 포함시키고 이를 통하여 디코더의 간섭없이 사운드 소스 위치의 수평각의 회전을 직접적으로 제어하는 것이 역시 가능하다. 그러나, 이를 위해서는 180도의 변경을 표시하기 충분하도록 긴 코드워드가 필요하며, 즉, 제어 정보의 비트율이 증가된다.
결과적으로, 본 발명의 일 측면은 복수 개의 오디오 채널을 포함하는 다중-채널 오디오 신호로부터 파라미터 인코딩된 오디오 신호를 생성하기 위한 파라메트릭 오디오 인코더에 관련된다. 이러한 인코더는 복수 개의 오디오 채널의 적어도 하나의 결합 신호를 생성한다. 추가적으로, 이러한 인코더는 스테레오 오디오 신호의 합성 동작에서 오디오 소스 위치를 제어하기 위한 채널 구성 정보를 포함하는 사이드 정보의 하나 또는 그 이상의 상응하는 집합을 생성한다. 그러면, 채널 구 성 정보는 스테레오 오디오 신호의 합성이 이루어지는 동안에 단계적 동작에서 오디오 소스 위치 데이터에 가장 근접하게 정합하는 HRTF 필터의 좌우 쌍을 검색하기 위한 정보를 포함한다. 결과적으로, 콘텐츠 생성자는 스테레오 다운믹스 프로세스 및 디코더 내의 증분 단계들의 이용을 제어할 수 있다. 공간 효과는 예를 들어 사운드 소스(가상 스피커)를 중앙(메디안, median) 축으로부터 더 멀리 이동시킴으로써 향상될 수 있다. 또한, 재생이 이루어지는 동안에 하나 또는 그 이상의 사운드 소스가 이동될 수 있으며, 따라서 특별 오디오 효과를 허용할 수 있다. 따라서, 콘텐츠 생성자는 (물리적으로)고정된 라우드스피커 위치를 가지는 라우드스피커 표현의 경우에 비하여 스테레오 콘텐츠에 대한 오디오 이미지를 설계하는데 더 많은 자유도 및 유연성을 가진다.
예를 들어, 인코더는 공지된 바와 같은 BCC 인코더일 수 있으며, 이것은 다중-채널 사운드 이미지를 기술하는 채널간 큐인 ICTD, ICLD 및 ICC에 부가하거나 이것 대신에 채널 구성 정보를 연산하도록 구현된다. 인코더는 이득 예측치 내에서 채널 구성 정보를 인코딩하거나 또는 정적 채널 구성의 경우에는 오디오 스트림의 개시부에서 단일 정보 블록으로서 인코딩할 수 있거나, 만일 동적 구성 갱신이 이용되면, 경우에 따라서 송신 비트스트림 내에 포함되는 개별 필드 내에 인코딩할 수 있다. 그러면, 합 신호 및 사이드 정보와 채널 구성 정보가 수신기 측에 송신되는데, 바람직하게는 합 신호를 코딩하기 위한 적절한 저 비트율 오디오 코딩 기법을 이용하여 송신된다.
하나의 결합 채널 및 필요한 사이드 정보의 송신에 대하여 요청된 비트율이 매우 낮기 때문에, 본 발명은 무선 통신 시스템과 같이, 가용 대역폭이 부족 자원(scarce resource)인 시스템 내에도 특히 적용될 수 있다. 따라서, 실시예들은 전형적으로 고품질 라우드스피커가 없는 이동 단말기 또는 휴대용 장치 내에 특히 적용가능한데, 여기서 다중-채널 서라운드 사운드의 특징이 본 발명에 따른 실시예에 따라서 스테레오 오디오 신호를 청취하는 헤드폰을 통하여 도입될 수 있다. 다른 분야의 실시 가능한 응용예들은 원격 화상 회의 서비스를 포함하는데, 여기서 화상 회의의 참석자들은, 회의 호(conference call) 참석자들이 회의실 내의 상이한 위치에 위치하는 인상을 청취자에게 제공함으로써 용이하게 구별될 수 있다.
도 8은 데이터 처리 장치(TE)의 단순화된 구조를 도시하는데, 여기서 본 발명에 따르는 스테레오 디코딩 시스템이 구현될 수 있다. 데이터 처리 장치(TE)는 예를 들어 이동 단말기이거나, PDA 장치이거나, 개인용 컴퓨터(PC)일 수 있다. 데이터처리 유닛(TE)은 I/O 수단(I/O), 중앙 처리 유닛(CPU) 및 메모리(MEM)를 포함한다. 메모리(ME)는 독출 전용 메모리(ROM)부 및 임의 접근 메모리(RAM) 및 플래시 메모리(FLASH)와 같은 재기록부를 포함한다. 다른 외부 구성원들, 예컨대 CD-ROM, 다른 기기들 및 사용자와의 통신에 사용되는 정보는 I/O수단(I/O)을 통하여 중앙 처리 유닛(CPU)으로 전송된다. 만일 데이터 처리 장치가 이동국으로서 구현되면, 이것은 송수신기(Tx/Rx)를 전형적으로 포함하는데, 이것이 안테나를 통하여 전형적으로는 기지국 송수신국(base transceiver station, BTS)을 이용하여 무선 네트워크와 통신한다. 사용자 인터페이스(UI)장비는 전형적으로 디스플레이, 키패드, 마이크로폰 및 헤드폰용 접속 수단을 포함한다. 데이터 처리 장치는 더 나아 가 다양한 하드웨어 모듈용이거나 또는 집적 회로(IC)로서 표준 형태 슬롯과 같은 연결 수단(MMC)을 포함할 수 있는데, 이것이 데이터 처리 장치에서 실행될 다양한 어플리케이션을 제공할 수 있다.
따라서, 본 발명에 따른 스테레오 디코딩 시스템은 데이터 처리 장치의 중앙처리부(CPU) 내에서 또는 전용 디지털 신호 프로세서(DSP)(파라미터 코드 프로세서) 내에서 실행될 수 있으며, 이를 통하여 해당 데이터 처리 장치는 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 상응하는 집합을 포함하는 파라미터 인코딩된 오디오 신호를 스테레오 오디오 신호의 합성 과정에서 오디오 소스 위치를 제어하기 위해 수신한다. 파라미터 인코딩된 오디오 신호는 예를 들어 CD-ROM과 같은 메모리 수단으로부터 수신되거나 또는 안 및 송수신기(Tx/Rx)를 통해 무선 네트워크로부터 수신될 수 있다. 처리 유닛(DSP 또는 CPU)은 스테레오 오디오 신호 내의 오디소 소스의 수평 및/또는 수직 위치를 기술하는 오디오 소스 위치 데이터를 채널 구성 정보로부터 유도한다. 더 나아가, 데이터 처리 장치는 두부 관련 전달 함수 필터의 소정 집합을 포함하는데, 이로부터 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍이 선택되어, 두부 관련 전달 함수 필터의 상기 좌우 쌍이 수평면에서 단계별 동작에서 검색되도록 한다. 최종적으로, 데이터 처리 장치는 사이드 정보 및 상기 채널 구성 정보에 따라서 적어도 하나의 처리 신호로부터 스테레오 오디오 신호를 합성하기 위한 합성기를 더 포함한다. 그러면, 스테레오 오디오 신호 가 헤드폰을 통하여 재생된다.
디코더는 장치의 내장 부분, 즉, 내장형 구조로서 데이터 처리 장치(TE) 내에 구현될 수 있으며, 또는 디코더는 요청된 디코딩 기능을 포함하고 다양한 종류의 데이터 처리 장치에 부착될 수 있는 개별 모듈일 수 있다. 요청된 디코딩 기능은 칩셋으로서 구현될 수 있는데, 즉, 집적 회로 및 해당 집적 회로를 데이터 처리 장치로 연결시키기 위한 필수 연결 수단으로서 구현될 수 있다.
마찬가지로, 본 발명에 따른 인코딩 시스템은 중앙처리부(CPU)에서 또는 데이터 처리 장치의 전용의 디지털 신호 프로세서(DSP)에서 실행될 수 있으며, 이를 통하여 데이터 처리 장치는 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 스테레오 오디오 신호의 합성 동작 동안에 오디오 소스 위치를 제어하기 위한 채널 구성 정보를 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 상응하는 집합을 포함하는 파라미터 인코딩된 오디오 신호를 생성하는데, 여기서 상기 채널 구성 정보는 두부 관련 전달 함수 필터의 소정의 집합으로부터, 스테레오 오디오 신호의 합성 동안에 단계별 동작에서 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하기 위한 정보를 포함한다.
본 발명의 기능들은 이동국과 같은 단말기 장치 내에서 구현되고, 또는 컴퓨터 프로그램으로서도 구현될 수 있는데, 컴퓨터 프로그램이 중앙 처리 유닛(CPU) 또는 전용의 디지털 신호 프로세서(DSP) 내에서 실행되면, 이것은 단말기 장치로 하여금 본 발명의 단계들을 구현하도록 야기한다. 컴퓨터 프로그램(소프트웨어, SW)의 기능들은 상호 통신하는 별개의 몇 개의 프로그램 구성요소들에 분산될 수 있다. 컴퓨터 소프트웨어는 이를테면 PC의 하드 디스크 또는 CD-ROM 디스크, 플래시 메모리 등과 같은 모든 메모리 수단에 저장될 수 있으며, 이로부터 컴퓨터 소프트웨어가 예를 들어 TCP/IP 프로토콜 스택을 이용함으로써 이동국의 메모리에 로딩될 수 있다.
하드웨어 솔루션들 또는 하드웨어 및 소프트웨어 솔루션들의 조합을 사용하여 본 발명의 수단을 구현하는 것도 가능하다. 따라서, 전술된 컴퓨터 프로그램 생성물은 하드웨어 모듈을 전자 기기에 연결하기 위한 연결 수단을 포함하는 하드웨어 모듈에서의 하드웨어 솔루션, 예를 들면 ASIC 또는 FPGA 회로로서, 또는 하나 이상의 집적회로(IC)들로서 적어도 부분적으로 구현될 수 있는데, 하드웨어 모듈 또는 IC들은 상기 프로그램 태스크들을 수행하기 위한 각종 수단으로서 하드웨어 및/또는 소프트웨어로서 구현되는 각종 수단을 더 구비한다.
본 발명이 전술된 실시예들로만 한정되지 않고 첨부된 청구항들의 기술적 범위 내에서 변형될 수 있다는 것이 이해되어야 한다.
본 발명은 공간적 오디오 부호화에 적용될 수 있고, 특히 스테레오 오디오 신호들의 디코딩의 동적 제어에 적용될 수 있다.

Claims (31)

  1. 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 집합 - 상기 사이드 정보의 하나 또는 그 이상의 집합은 상기 적어도 하나의 결합 신호에 상응하는 것임 - 을 포함하는 파라미터 인코딩된 오디오 신호를 입력하는 단계;
    상기 채널 구성 정보로부터, 오디오 신호 내의 오디오 소스들의 수평 및 수직 위치들 중 적어도 하나를 기술하는 오디오 소스 위치 데이터를 유도하는 단계;
    두부 관련 전달 함수(Head-Related Transfer Function) 필터들의 소정 집합으로부터, 상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터들의 좌우 쌍을 선택하는 단계로서, 상기 두부 관련 전달 함수 필터의 좌우 쌍은 공간 오디오 이미지에서 검색되는 단계; 및
    상기 사이드 정보 및 상기 채널 구성 정보에 따라서 두부 관련 전달 함수 필터들의 선택된 쌍을 적용함으로써 상기 적어도 하나의 결합 신호로부터 스테레오 오디오 신호(binaural audio signal)를 합성하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    두부 관련 전달 함수 필터의 좌우 쌍을 수평면에서 단계별 동작(stepwise motion)에서 검색하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제1항 또는 제2항에 있어서,
    사운드 소스 이동 상수(sound source movement constant)의 각속도 제어를 유지하는 단계; 및
    상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 오디오 소스 위치 데이터가 상기 사운드 이미지의 특이 지점(singularity position)을 교차하는 사운드 소스 이동을 암시하는지 모니터링하는 단계; 및 상기 오디오 소스 위치 데이터가 상기 사운드 소스 이동을 암시한다면,
    상기 특이 지점이 교차된 이후에 상기 사운드 소스 위치의 수평 각도를 산술적으로 180도만큼 회전시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
  5. 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 사이드 정보(side information)의 하나 또는 그 이상의 집합 - 상기 사이드 정보의 하나 또는 그 이상의 집합은 상기 적어도 하나의 결합 신호에 상응하는 것임 - 을 포함하는 파라미터 인코딩된 오디오 신호를 처리하기 위한 파라메트릭 코드 프로세서(parametric code processor)로서, 오디오 신호 내의 오디오 소스들의 수평 및 수직 위치들 중 적어도 하나를 기술하는 오디오 소스 위치 데이터가 상기 채널 구성 정보로부터 유도되는 파라메트릭 코드 프로세서;
    두부 관련 전달 함수 필터의 좌우 쌍이 공간 오디오 이미지에서 검색되도록 상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 상기 두부 관련 전달 함수 필터들의 좌우 쌍이 선택되는 두부 관련 전달 함수 필터들의 소정 집합; 및
    상기 사이드 정보 및 상기 채널 구성 정보에 따라서 두부 관련 전달 함수 필터들의 선택된 쌍을 적용함으로써 상기 적어도 하나의 결합 신호로부터 스테레오 오디오 신호를 합성하기 위한 합성기를 포함하는 것을 특징으로 하는 장치.
  6. 제5항에 있어서,
    두부 관련 전달 함수 필터의 상기 가장 근접한 정합 좌우 쌍은, 수평면에서 단계별 동작에서 검색되도록 구현되는 것을 특징으로 하는 장치.
  7. 제5항 또는 제6항에 있어서,
    사운드 소스 이동 상수의 각속도 제어를 유지하고, 상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하기 위한 처리 유닛을 더 포함하는 것을 특징으로 하는 장치.
  8. 제7항에 있어서, 상기 처리 유닛은,
    상기 오디오 소스 위치 데이터가 상기 사운드 이미지의 특이 지점(제니스, zenith)을 교차하는 사운드 소스 이동을 암시하는지 모니터링하고, 상기 오디오 소스 위치 데이터가 상기 사운드 소스 이동을 암시한다면,
    상기 특이 지점이 교차된 이후에 상기 사운드 소스 위치의 수평 각도를 산술적으로 180도만큼 회전시키도록 적응되는 것을 특징으로 하는 장치.
  9. 제5항 또는 제6항에 있어서,
    사이드 정보의 상기 집합은, 채널간 시간차(ICTD), 채널간 높이차(ICLD) 및 채널간 코히어런스(ICC)와 같은 스테레오 큐 코딩(BCC) 기법에서 이용되는 채널-간 큐를 더 포함하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서, 상기 합성기는,
    사이드 정보의 상기 하나 또는 그 이상의 집합에 따라서 제어되는 스테레오 큐 코딩(BCC) 합성 프로세스에서 적어도 하나의 결합 신호로부터 복수 개의 오디오 채널들의 복수 개의 오디오 신호들을 합성하도록 구현되고, 상기 장치는,
    복수 개의 합성된 오디오 신호들이 상기 채널 구성 정보에 따라서 적용되는 스테레오 다운믹스 유닛을 더 포함하는 것을 특징으로 하는 장치.
  11. 제5항 또는 제6항에 있어서,
    상기 장치는 이동 단말기, 휴대용 디지털 보조 장치(PDA) 또는 개인용 컴퓨터인 것을 특징으로 하는 장치.
  12. 컴퓨터 프로그램을 기록한 컴퓨터 판독가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램은 데이터 처리 장치에서 실행가능하고, 복수 개의 오디오 채널들 중 적어도 하나의 결합 신호 및 다중-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 사이드 정보의 하나 또는 그 이상의 집합 - 상기 사이드 정보의 하나 또는 그 이상의 집합은 상기 적어도 하나의 결합 신호에 상응하는 것임 - 을 포함하는 파라미터 인코딩된 오디오 신호를 처리하기 위한 것으로,
    상기 컴퓨터 프로그램은,
    상기 채널 구성 정보로부터, 오디오 신호 내의 오디오 소스들의 수평 및 수직 위치들 중 적어도 하나를 기술하는 오디오 소스 위치 데이터를 유도하기 위한 컴퓨터 프로그램 코드부;
    두부 관련 전달 함수 필터들의 소정 집합으로부터, 상기 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터들의 좌우 쌍을 선택하기 위한 컴퓨터 프로그램 코드부로서, 상기 두부 관련 전달 함수 필터의 좌우 쌍은 공간 오디오 이미지에서 검색되는 컴퓨터 프로그램 코드부; 및
    상기 사이드 정보 및 상기 채널 구성 정보에 따라서 두부 관련 전달 함수 필터들의 선택된 쌍을 적용함으로써 상기 적어도 하나의 결합 신호로부터 스테레오 오디오 신호를 합성하기 위한 컴퓨터 프로그램 코드부를 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
  13. 제12항에 있어서,
    두부 관련 전달 함수 필터의 좌우 쌍을 수평면에서 단계별 동작에서 검색하기 위한 컴퓨터 프로그램 코드부를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
  14. 파라미터 인코딩된 오디오 신호를 생성하기 위한 방법에 있어서,
    복수 개의 오디오 채널을 포함하는 다중-채널 오디오 신호를 입력하는 단계;
    복수 개의 오디오 채널의 적어도 하나의 결합 신호를 생성하는 단계; 및
    스테레오 오디오 신호의 합성물(synthesis)에서 오디오 소스 위치를 제어하기 위한 채널 구성 정보를 포함하는 사이드 정보의 하나 또는 그 이상의 집합 - 상기 사이드 정보의 하나 또는 그 이상의 집합은 상기 적어도 하나의 결합 신호에 상응하는 것임 - 을 생성하는 단계로서, 상기 채널 구성 정보는, 두부 관련 전달 함수 필터의 소정 집합으로부터 상기 스테레오 오디오 신호의 합성 동안에 공간 오디오 이미지 내의 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하기 위한 정보를 포함하는 단계를 포함하는 것을 특징으로 하는 방법.
  15. 파라미터 인코딩된 오디오 신호를 생성하기 위한 파라메트릭 오디오 인코더에 있어서,
    복수 개의 오디오 채널을 포함하는 다중-채널 오디오 신호를 입력하기 위한 수단;
    복수 개의 오디오 채널의 적어도 하나의 결합 신호를 생성하기 위한 수단; 및
    스테레오 오디오 신호의 합성물에서 오디오 소스 위치를 제어하기 위한 채널 구성 정보를 포함하는 사이드 정보의 하나 또는 그 이상의 집합 - 상기 사이드 정보의 하나 또는 그 이상의 집합은 상기 적어도 하나의 결합 신호에 상응하는 것임 - 을 생성하기 위한 수단으로서, 상기 채널 구성 정보는, 두부 관련 전달 함수 필터의 소정 집합으로부터 상기 스테레오 오디오 신호의 합성 동안에 공간 오디오 이미지 내의 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하기 위한 정보를 포함하는 수단을 포함하는 것을 특징으로 하는 파라메트릭 오디오 인코더.
  16. 컴퓨터 프로그램을 기록한 컴퓨터 판독가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램은 데이터 처리 장치에서 실행가능하고, 파라미터 인코딩된 오디오 신호를 생성하기 위한 것으로,
    상기 컴퓨터 프로그램은,
    복수 개의 오디오 채널을 포함하는 다중-채널 오디오 신호를 입력하기 위한 컴퓨터 프로그램 코드부;
    복수 개의 오디오 채널의 적어도 하나의 결합 신호를 생성하기 위한 컴퓨터 프로그램 코드부; 및
    스테레오 오디오 신호의 합성물에서 오디오 소스 위치를 제어하기 위한 채널 구성 정보를 포함하는 사이드 정보의 하나 또는 그 이상의 집합 - 상기 사이드 정보의 하나 또는 그 이상의 집합은 상기 적어도 하나의 결합 신호에 상응하는 것임 - 을 생성하기 위한 컴퓨터 프로그램 코드부로서, 상기 채널 구성 정보는, 두부 관련 전달 함수 필터의 소정 집합으로부터 상기 스테레오 오디오 신호의 합성 동안에 공간 오디오 이미지 내의 오디오 소스 위치 데이터에 가장 근접하게 정합되는 두부 관련 전달 함수 필터의 좌우 쌍을 검색하기 위한 정보를 포함하는 컴퓨터 프로그램 코드부를 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020097000218A 2006-07-08 2007-06-18 스테레오 오디오 신호의 동적 디코딩 KR101054932B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/456,191 2006-07-08
US11/456,191 US7876904B2 (en) 2006-07-08 2006-07-08 Dynamic decoding of binaural audio signals
PCT/FI2007/050367 WO2008006938A1 (en) 2006-07-08 2007-06-18 Dynamic decoding of binaural audio signals

Publications (2)

Publication Number Publication Date
KR20090018861A KR20090018861A (ko) 2009-02-23
KR101054932B1 true KR101054932B1 (ko) 2011-08-05

Family

ID=38919148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097000218A KR101054932B1 (ko) 2006-07-08 2007-06-18 스테레오 오디오 신호의 동적 디코딩

Country Status (7)

Country Link
US (1) US7876904B2 (ko)
EP (1) EP2038880B1 (ko)
JP (1) JP4708493B2 (ko)
KR (1) KR101054932B1 (ko)
CN (1) CN101490743B (ko)
HK (1) HK1132365A1 (ko)
WO (1) WO2008006938A1 (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
WO2007091850A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
JP4557035B2 (ja) * 2008-04-03 2010-10-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
TWI413110B (zh) 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
EP3723090B1 (en) * 2009-10-21 2021-12-15 Dolby International AB Oversampling in a combined transposer filter bank
KR101567461B1 (ko) * 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
WO2011063857A1 (en) 2009-11-30 2011-06-03 Nokia Corporation An apparatus
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8654984B2 (en) * 2011-04-26 2014-02-18 Skype Processing stereophonic audio signals
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
BR112014029916A2 (pt) * 2012-06-06 2018-04-17 Sony Corp dispositivo e, método de processamento do sinal de áudio, e, programa de computador.
EP2717263B1 (en) 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015031074A2 (en) 2013-08-30 2015-03-05 Gleim Conferencing, Llc Multidimensional virtual learning system and method
WO2015031080A2 (en) * 2013-08-30 2015-03-05 Gleim Conferencing, Llc Multidimensional virtual learning audio programming system and method
BR112016008817B1 (pt) 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
EP3090576B1 (en) 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
WO2015104447A1 (en) * 2014-01-13 2015-07-16 Nokia Technologies Oy Multi-channel audio signal classifier
MX357405B (es) * 2014-03-24 2018-07-09 Samsung Electronics Co Ltd Metodo y aparato de reproduccion de señal acustica y medio de grabacion susceptible de ser leido en computadora.
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN111866022B (zh) * 2015-02-03 2022-08-30 杜比实验室特许公司 感知质量比会议中原始听到的更高的后会议回放系统
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
CN107204132A (zh) * 2016-03-16 2017-09-26 中航华东光电(上海)有限公司 3d虚拟立体声空中预警系统
WO2017223110A1 (en) * 2016-06-21 2017-12-28 Dolby Laboratories Licensing Corporation Headtracking for pre-rendered binaural audio
CN112954582A (zh) 2016-06-21 2021-06-11 杜比实验室特许公司 用于预渲染的双耳音频的头部跟踪
JP6670802B2 (ja) * 2017-07-06 2020-03-25 日本放送協会 音響信号再生装置
US11463795B2 (en) * 2019-12-10 2022-10-04 Meta Platforms Technologies, Llc Wearable device with at-ear calibration

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005043511A1 (en) 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
WO2006006809A1 (en) 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
WO2006060279A1 (en) 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0666200U (ja) * 1993-02-16 1994-09-16 オンキヨー株式会社 音響再生装置
JPH06285258A (ja) * 1993-03-31 1994-10-11 Victor Co Of Japan Ltd ビデオゲーム機
DE19728283A1 (de) * 1997-07-02 1999-01-07 Siemens Ag Ansteuerschaltung für ein steuerbares Halbleiterbauelement
GB9726338D0 (en) * 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
JPH11338975A (ja) * 1998-05-28 1999-12-10 Fujitsu Ltd 文字切り出し処理方式および文字切り出し処理プログラムを記録した記録媒体
JP3781902B2 (ja) * 1998-07-01 2006-06-07 株式会社リコー 音像定位制御装置および音像定位制御方式
JP2000078572A (ja) * 1998-08-31 2000-03-14 Toshiba Corp オブジェクト符号化装置およびオブジェクト符号化装置のコマ落し制御方法およびプログラムを記録した記憶媒体
JP2000250745A (ja) * 1999-03-01 2000-09-14 Nec Corp プログラム自動生成システム
JP2001100792A (ja) * 1999-09-28 2001-04-13 Sanyo Electric Co Ltd 符号化方法、符号化装置およびそれを備える通信システム
JP2002176361A (ja) * 2000-12-06 2002-06-21 Sony Corp 量子化方法および量子化装置
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
JP2003009296A (ja) * 2001-06-22 2003-01-10 Matsushita Electric Ind Co Ltd 音響処理装置および音響処理方法
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
CN100594744C (zh) * 2002-09-23 2010-03-17 皇家飞利浦电子股份有限公司 声音信号的生成
JP2005109914A (ja) * 2003-09-30 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 高臨場感音場再生方法、頭部伝達関数データベース作成方法及び高臨場感音場再生装置
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005043511A1 (en) 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
WO2006006809A1 (en) 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
WO2006060279A1 (en) 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information

Also Published As

Publication number Publication date
EP2038880A1 (en) 2009-03-25
WO2008006938A1 (en) 2008-01-17
JP4708493B2 (ja) 2011-06-22
US7876904B2 (en) 2011-01-25
CN101490743B (zh) 2011-12-28
EP2038880B1 (en) 2015-09-09
JP2009543389A (ja) 2009-12-03
US20080008327A1 (en) 2008-01-10
CN101490743A (zh) 2009-07-22
KR20090018861A (ko) 2009-02-23
EP2038880A4 (en) 2013-01-09
HK1132365A1 (en) 2010-02-19

Similar Documents

Publication Publication Date Title
KR101054932B1 (ko) 스테레오 오디오 신호의 동적 디코딩
US10674262B2 (en) Merging audio signals with spatial metadata
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
Herre et al. MPEG-H 3D audio—The new standard for coding of immersive spatial audio
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
JP2009522894A (ja) バイノーラルオーディオ信号の復号
WO2007080225A1 (en) Decoding of binaural audio signals
CN114600188A (zh) 用于音频编码的装置和方法
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
JP7371968B2 (ja) メタデータを利用するオーディオ信号処理方法及び装置
WO2022200680A1 (en) Interactive audio rendering of a spatial stream
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
WO2007080224A1 (en) Decoding of binaural audio signals
KR20180024612A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140722

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150716

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160720

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170719

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180718

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190718

Year of fee payment: 9