KR101146841B1 - 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치 - Google Patents

바이노럴 오디오 신호를 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR101146841B1
KR101146841B1 KR1020107007612A KR20107007612A KR101146841B1 KR 101146841 B1 KR101146841 B1 KR 101146841B1 KR 1020107007612 A KR1020107007612 A KR 1020107007612A KR 20107007612 A KR20107007612 A KR 20107007612A KR 101146841 B1 KR101146841 B1 KR 101146841B1
Authority
KR
South Korea
Prior art keywords
binaural
audio signal
signal
stereo
parameter
Prior art date
Application number
KR1020107007612A
Other languages
English (en)
Other versions
KR20100063113A (ko
Inventor
디르크 예로엔 브리에바트
라르스 팔크 빌레모에스
Original Assignee
돌비 인터네셔널 에이비
코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비, 코닌클리즈케 필립스 일렉트로닉스 엔.브이. filed Critical 돌비 인터네셔널 에이비
Publication of KR20100063113A publication Critical patent/KR20100063113A/ko
Application granted granted Critical
Publication of KR101146841B1 publication Critical patent/KR101146841B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

바이노럴 오디오 신호(Binaural Audio Signal)를 생성하는 장치는 N-채널 오디오 신호의 다운믹스(Downmix)인 오디오 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)로 구성되는 오디오 데이터를 수신하는 디멀티플렉서(401)(Demultiplexer)와 디코터(403)(Decoder)을 포함한다. 전환 프로세서(411) (Conversion Processor)는 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 의해 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 변환한다. 행렬 프로세서(409)(Matrix Processor)는 상기 제1 바이노럴 파라메터에 의해 M-채널 오디오 신호를 제1 스테레오 신호로 변환한다. 스테레오 필터(415, 417)(Stereo Filter)는 상기 제1 스테레오 신호를 필터링함으로써 바이노럴 오디오 신호를 생성한다. 스테레오 필터의 필터 계수(Filter Coefficient)는 상기 적어도 하나의 바이노럴 지각 전달 함수에 따라 계수 프로세서(419)(Coefficient Processor)에 의해 결정된다. 파라메터 전환/프로세싱과 필터링의 조합은 높은 품질의 바이노럴 신호가 낮은 복잡도를 가지고 생성될 수 있게 한다.

Description

바이노럴 오디오 신호를 생성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR GENERATING A BINAURAL AUDIO SIGNAL}
본 발명은 바이노럴 오디오 신호를 생성하기 위한 장치 및 방법에 관한 것이고 이것에 제한되는 것은 아니지만 특히, 모노 다운믹스 신호로부터 바이노럴 오디오 신호의 생성에 관련된다.
지난 십년간 멀티-채널 오디오에 대하여 특히 전통적인 스테레오 신호를 넘어선 공간 오디오에 대한 관심이 있어 왔다. 예를 들어, 전통적인 스테레오 레코딩은 단지 두 개의 채널로 구성되는 반면에 최근 발달된 오디오 시스템은 널리 쓰이는 5.1 서라운드 음향 시스템처럼 일반적으로 다섯 개 또는 여섯 개의 채널을 사용한다. 이것은 사용자가 음향 소스들에 의해 둘러싸이는 더욱 집중된(involved) 청각 경험을 제공한다.
다양한 테크닉과 표준이 이러한 멀티-채널 신호의 커뮤니케이션을 위해 개발되어 왔다. 예를 들어, 5.1 서라운드 시스템에 나타나는 여섯 개의 개별적인 채널은 고급 오디오 부호화(Advanced Audio Coding(AAC)) 또는 돌비 디지털 표준(Dolby Digital Standard)과 같은 표준에 따라 전송된다.
하지만, 역방향 호환성(Backwards Compatibility)을 제공하기 위하여, 더 높은 수의 채널을 더 낮은 수의 채널로 다운믹스하는 것이 공지되어 있고, 특히 5.1 서라운드 음향 신호를 스테레오 신호로 다운믹스하는 것이 자주 사용되어 스테레오 신호가 레가시(legacy)(스테레오) 디코더에 의해 복원되고 5.1 신호는 서라운드 음향 디코더에 의하여 복원된다.
하나의 예는 MPEG2 역방향 호환성 코딩(Backwards Compatible Coding) 방법이다. 멀티 채널 신호는 스테레오 신호로 다운믹스된다. 부가적인 신호(Additional Signal)는 부수적인 데이터(Ancillary Data)부분에서 인코딩되어 MPEG2 멀티-채널 디코더가 멀티-채널 신호 표현을 생성하게 한다. MPEG1 디코더는 부수적인 데이터를 무시할 수 있고 그래서 스테레오 다운믹스만 디코딩한다.
오디오 신호의 공간적인 속성을 묘사하기 위해 사용되는 여러 파라메터들이 있다. 이러한 파라메터의 하나는 예를 들어 스테레오 신호의 오른쪽 채널과 왼쪽 채널 사이의 상호-상관인 상호-채널 상호-상관(Inter-Channel Cross-Correlation)이다. 다른 파라메터는 채널의 파워 비율이다. 속칭, (파라메트릭(Parametric)) 공간 오디오 (인)코더에서, 이것들과 다른 파라메터는 감소된 채널수, 예를 들어 단일 채널, 를 가진 오디오 신호에 더하여 원래의 오디오 신호의 공간적 특성을 나타내는 파라메터들의 집합을 생성하기 위해 원래 오디오 신호로부터 추출된다. 속칭, (파라메트릭) 공간 오디오 디코더에서, 전송된 공간적 파라메터에 의해 설명되는 공간적 특성이 다시 복원된다.
특히 모바일 영역에서, 3D 음향 소스 위치설정은 최근 흥미를 얻고 있다. 모바일 게임에서 효과적으로 ‘머리 밖’ 3D 효과('Out-of-Head' 3D Effect)를 만들기 때문에, 음악 재생과 음향 효과는 3D에서 배치될 경우 소비자의 경험에 중대한 가치을 부가할 수 있다. 특히, 사람의 귀가 민감한 구체적인 방향 정보를 포함하는 바이노럴 오디오 신호를 녹음하고 재생하는 것은 공지되어 있다. 바이노럴 녹음은 일반적으로 인체모형의 머리에 끼워진 두 개의 마이크로 폰을 사용하여 만들어져 녹음된 소리는 사람의 귀에 의해 포착된 소리에 상응하고 귀와 머리의 모양에 기인한 어떠한 영향도 포함한다. 바이노럴 녹음과 스테레오(즉, 스테레오포닉(Stereophonic))녹음은, 바이노럴 녹음의 재생은 일반적으로 헤드셋 또는 헤드폰을 겨냥하는 반면에 스테레오 녹음은 일반적으로 라우드 스피커에 의한 재생을 위해 만들어 진다는 점에서 다르다. 바이노럴 녹음이 단지 두 개의 채널을 이용한 모든 공간적 정보의 재생을 하게 하는 반면에, 스테레오 녹음은 동일한 공간적 지각을 제공하지 못한다.
보통의 듀얼 채널(스테레오포닉) 또는 멀티 채널(예 5.1) 녹음은 개별 보통 신호(Regular Signal)를 지각 전달 함수(Perceptual Transfer Function)의 집합과 컨볼빙(Convolving)함으로써 바이노럴 녹음으로 변화될 수 있다. 이러한 지각 전달 함수는 신호의 사람 머리, 및 가능한 다른 물체의 영향을 모델링한다. 공간적 지각 전달 함수의 잘 알려진 타입은 속칭 머리-연관 전달 함수(Head-Related Transfer Function(HRTF))라고 불리는 것이다. 방의 벽, 천장 및 바닥에 의해 발생되는 반향을 또한 고려한 공간 지각 전달 함수의 다른 타입은, 바이노럴 공간 임펄스 응답(Binaural Room Impulse Response(BRIR))이다.
일반적으로, 3D 위치선정 알고리즘은 임펄스 응답을 사용하여 특정 음향 소스 위치에서 고막까지의 이동을 설명하는 HRTF(또는 BRIR)를 이용한다. 3D 음향 소스 위치선정은 HRTF를 사용한 멀티-채널 신호에 적용될 수 있어 바이노럴 신호가 공간 음향 정보를 예를 들어 헤드폰 양쪽을 사용하는 사용자에게 제공하게 한다.
전통적인 바이노럴 합성 알고리즘은 도 1에 간략히 나타나 있다. 입력 채널의 집합이 HRTF들의 집합에 의해 필터링된다. 각 입력 신호는 두 개의 신호(왼쪽 'L'과 오른쪽 ‘R' 성분)으로 분리된다; 이 신호들 각각은 요구되는 음향 소스 위치에 상응하는 HRTF에 의해 뒤이어 필터링된다. 뒤이어 모든 왼쪽-귀 신호는 왼쪽 바이노럴 출력 신호를 생성하기 위해 합쳐지고, 오른쪽-귀 신호는 오른쪽 바이노럴 출력 신호를 생성하기 위해 합쳐진다.
디코더 시스템은 서라운드 음향 인코딩된 신호를 수신할 수 있고 바이노럴 신호로부터 서라운드 음향 경험을 생성할 수 있음이 알려져 있다. 예를 들어, 헤드폰 시스템은 헤드폰 사용자에게 서라운드 음향 경험을 제공하기 위해 서라운드 음향 신호가 서라운드 음향 바이노럴 신호로 변환될 수 있게 하는 것으로 알려져 있다.
도 2는 MPEG 서라운드 디코더가 스테레오 신호를 공간 파라메트릭 데이터와 함께 수신하는 시스템을 나타낸다. 입력 비트 스트림은 디멀티플렉서(201)에 의해 디-멀티플렉스되어 공간적 파라메터와 다운믹스 비트 스트림을 야기한다. 후자인 비트 스트림(Latter Bit Stream)은 기존의 모노 또는 스테레오 디코더(203)을 이용해서 디코딩된다. 디코딩된 다운믹스는 전송된 공간 파라메터에 의해 멀티-채널 출력을 생성하는 공간 디코더(205)(Spatial Decoder)에 의해 디코딩된다. 결국, 멀티-채널 출력은 사용자에게 서라운드 음향 경험을 제공하는 바이노럴 출력 신호를 만들어내는 바이노럴 합성 단계(207)(Binaural Synthesis Stage)(도 1의 그것과 유사한)에 의해 진행된다.
하지만, 이러한 방법은 복잡하고 상당한 계산상의 리소스를 요구하고 오디오 품질을 더욱 감소시킬 수 있고 가청 아티팩트(Audible Artifact)를 발생시킬 수 있다.
이러한 단점들 중 일부를 극복하기 위해서 HRTF 필터를 이용하여 멀티-채널 신호의 다운믹스에 의한 전송된 다운 믹스 신호로부터 멀티-채널 신호가 먼저 생성되기를 요구함 없이 멀티-채널 신호가 헤드폰에 제공될 수 있도록 파라메트릭 멀티-채널 오디오 디코더는 바이노럴 합성 알고리즘과 혼합될 수 있다.
이러한 디코더에서, 멀티 채널 신호를 복원하기 위한 업믹스 공간 파라메터는 바이노럴 신호를 생성하기 위해 다운믹스 신호에 직접적으로 적용될 수 있는 혼합된 파라메터를 생성하기 위해서 HRFT필터에 혼합된다. 이렇게 하기 위해, HRFT 필터는 파라메터로 표현된다.
이러한 디코더의 실시예가 도 3에 나타나 있고 Breebaart, J. “Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround”, Proc. ICME, Beijing, China (2007) and Breebaart, J., Faller, C. “Spatial audio processing: MPEG Surround and other applications”, Wiley & Sons, New York (2007)에 더 설명되어 있다.
공간 파라메터와 다운믹스 신호를 포함하는 입력 비트 스트림은 디멀티플렉서(301)에 의해 수신된다. 다운믹스 신호는 기존의 디코더(303)에 의해 디코딩되고 모노 또는 스테레오 다운믹스를 생성한다.
부가적으로, HRTF 데이터는 HRTF 파라메터 추출 유닛(305)에 의해 파라메터 도메인으로 전환된다. 생성된 HRTF 파라메터는 전환 유닛(307)에 혼합되어 바이노럴 파라메터라고 불리는 혼합된 파라메터를 생성한다. 이 파라메터는 공간 파라메터와 HRTF 프로세싱의 혼합 결과를 설명한다.
공간적 디코더는 바이노럴 파라메터에 종속되는 디코딩된 다운믹스 신호를 변형함으로써 바이노럴 출력 신호를 합성한다. 특히, 다운믹스 신호는 변환 유닛(309)(Transform Unit)에 의해 변환 또는 필터 뱅크 도메인(Transform or Filter Bank Domain)으로 전송된다(또는 기존의 디코더(303)가 변환 신호로서 디코딩된 다운믹스 신호를 직접적으로 제공할 수 있다). 변환 유닛(309)는 특히 QMF 서브밴드를 생성하기 위한 QMF 필터 뱅크를 포함할 수 있다. 서브밴드 다운믹스 신호는 각각의 서브밴드에서 2x2 행렬 연산을 수행하는 행렬 유닛(311)(Matrix Unit)에 제공된다.
만일 전송된 다운믹스가 스테레오 신호인 경우 행렬 유닛(311)으로의 두개의 입력 신호는 두개의 스테레오 신호이다. 만일 전송된 다운믹스가 모노 신호인 경우 행렬 유닛(311)로의 입력 신호 중 하나는 모노 신호이고 나머지 신호는 역상관된(Decorrelated) 신호이다(기존의 모노 신호에서 스테레오신호로의 업믹싱과 유사한).
모노와 스테레오 다운믹스 둘 모두에서 메트릭스 유닛(311)은 연산을 수행한다.:
Figure 112010022243671-pct00001
,
Figure 112010022243671-pct00002
는 서브-밴드 인덱스 수,
Figure 112010022243671-pct00003
은 슬롯(Slot)(변환 간격(Transform Interval)) 인덱스 수,
Figure 112010022243671-pct00004
는 서브-밴드
Figure 112010022243671-pct00005
의 행렬 요소,
Figure 112010022243671-pct00006
,
Figure 112010022243671-pct00007
는 서브-밴드
Figure 112010022243671-pct00008
의 두 개의 입력 신호, 및
Figure 112010022243671-pct00009
,
Figure 112010022243671-pct00010
는 바이노럴 출력 신호 샘플이다.
행렬 유닛(311)은 바이노럴 출력 신호 샘플을 신호를 시간 도메인으로 다시 변환하는 역 변환 유닛(313)(Inverse Transform Unit)에 제공한다. 야기된 시간 도메인 바이노럴 신호는 서라운드 음향 경험을 제공하기 위해 헤드폰에 제공될 수 있다.
설명한 방법은 몇 가지의 이득이 있다:
동일한 변환 도메인(Transform Domain)이 다운믹스 신호를 디코딩하는 데에 사용될 수 있기 때문에 HRTF 프로세싱은 많은 경우에 요구되는 다수의 변환을 줄일 수 있는 변환 도메인에서 수행될 수 있다.
프로세싱의 복잡도는 매우 낮고(2x2 행렬의 곱만을 사용한다) 사실상 동시 오디오 채널의 수에 독립적이다. 모노와 스테레오 다운믹스 양쪽에 적용될 수 있다;
HRTF는 매우 간편한 방법으로 표현되고 그래서 효과적으로 전송되고 저장될 수 있다.
하지만, 상기 방법 또한 일정한 불이익이 있다. 특히, 상기 방법은 긴 시간 임펄스 응답(Longer Impulse Response)이 파라메터화된 서브밴드 HRTF 값에 의해 표현될 수 없기 때문에 단지 상대적으로 짧은 임펄스응답(Short Impulse Response)(일반적으로 변환 간격보다 작은)을 가지는 HRTF에만 적용가능하다. 그래서, 상기 방법은 긴 에코 또는 잔향(Reverberation)을 가지는 오디오 환경에 사용할 수 없다. 특히, 상기 방법은 일반적으로 길어서 파라메트릭 방법으로 정확히 모델링 할 수 없는 에코익(echoic) HRTF 또는 바이노럴 공간 임펄스 응답(BRIR)과 함께 사용할 수 없다.
그래서, 바이노럴 오디오 신호를 생성하기 위한 개선된 시스템은 유용하고, 특히 증가된 유연성(Flexibility), 향상된 성능(Performance), 용이한 구현(Implementation), 감소된 리소스 사용 및/또는 향상된 적용 가능성(Applicability)을 다른 오디오 환경에 허용하는 시스템은 유용하다.
그래서, 바이노럴 오디오 신호를 생성하기 위한 개선된 시스템은 유용하고, 특히 증가된 유연성(Flexibility), 향상된 성능(Performance), 용이한 구현(Implementation), 감소된 리소스 사용 및/또는 향상된 적용 가능성(Applicability)을 다른 오디오 환경에 허용하는 시스템은 유용하다.
따라서, 본 발명은 가급적이면 하나 이상의 위에 언급된 단점을 개별적으로 또는 어떠한 조합으로 완화하고, 경감하거나 또는 제거하기 위해 시도한다.
본 발명의 첫 번째 측면에 따르면 바이노럴 오디오 신호(Binaural Audio Signal)를 생성하는 바이노럴 오디오 신호 생성 장치로서 N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단; 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단; 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단; 상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터; 및 상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단을 포함하는, 바이노럴 오디오 신호 생성 장치를 제공한다.
본 발명은 향상된 바이노럴 오디오 신호가 생성될 수 있도록 한다. 특히, 본 발명의 실시형태는 주파수의 조합과 에코익 오디오 환경을 반영하는 바이노럴 신호를 생성하는 시간 프로세싱 및/또는 긴 임펄스 응답을 가지는 HRTF 또는 BRIR을 사용할 수 있다. 낮은 복잡도 구현이 얻어질 수 있다. 프로세싱은 낮은 컴퓨터 및/또는 메모리 리소스 요구에 의해 구현될 수 있다.
M-채널 오디오 다운믹스 신호는 구체적으로 5.1 또는 7.1 서라운드 신호의 다운믹스같은 높은 수의 공간적 채널의 다운 믹스를 포함하는 모노 또는 스테레오 신호일 수 있다. 공간적 파라메터 데이터는 구체적으로 N-채널 오디오 신호에서 상호-채널 차이 및/또는 상호-상관 차이를 포함할 수 있다. 바이노럴 지각 전달 함수(들)은 HRTF 또는 BRIR 전달 함수 일 수 있다.
본 발명의 선택적인(Optional) 특성에 따르면, 장치는 상기 M-채널 오디오 신호를 시간 도메인에서 서브밴드 도메인으로 변환하는 변환 수단을 더 포함하고 상기 전환 수단과 상기 스테레오 필터는 상기 서브밴드 도메인의 각 서브밴드를 개별적으로 처리하도록 설정된다.
상기 특성(Feature)은 전통적인 디코딩 알고리즘같은 많은 오디오 프로세싱 어플리케이션에 가능한 구현, 감소된 리소스 요구 및/또는 호환성(Compatibility)을 제공할 수 있다.
본 발명의 선택적인 특성에 따르면, 상기 바이노럴 지각 전달 함수의 임펄스 응답의 구간은 변환 시간 간격을 초과한다.
본 발명은 향상된 바이노럴 투(to) 신호가 생성될 수 있게 하고/거나 복잡도를 감소시킬 수 있게 한다. 특히, 본 발명은 긴 에코 또는 잔향 특성을 가진 오디오 환경에 대응하는 바이노럴 신호를 생성할 수 있다.
본 발명의 선택적인 특성에 따르면, 상기 전환 수단(409)은, 각 서브밴드에 대해, 대체로
Figure 112010022243671-pct00011
와 같은 스테레오 출력 샘플을 생성하도록 설정되고
Figure 112010022243671-pct00012
Figure 112010022243671-pct00013
중 적어도 하나는 상기 서브밴드에서 상기 M-채널 오디오 신호의 오 디오 채널 샘플이고 상기 전환수단은 공간 파라메터 데이터와 상기 적어도 하나의 바이노럴 지각 전달 함수 모두에 의해 행렬 계수
Figure 112010022243671-pct00014
를 결정하도록 설정된다.
상기 특성은 향상된 바이노럴 투(to) 신호가 생성될 수 있게 하고/거나 복잡도를 감소시킬 수 있게 한다.
본 발명의 선택적인 특성에 따르면, 상기 계수 수단은 상기 N-채널 신호에서 여러 음향 소스에 상응하는 복수의 바이노럴 지각 전달 함수에서의 임펄스 응답의 서브밴드 표현을 제공하는 수단; 상기 서브밴드 표현의 상응하는 계수의 가중된 조합에 의해서 상기 필터 계수를 결정하는 수단; 및 상기 공간적 파라메터 데이터에 의해 상기 가중치 조합에 대해 상기 서브밴드 표현의 가중치를 결정하는 수단을 포함한다.
본 발명은 향상된 바이노럴 신호가 생성되게 하고/거나 복잡도를 감소시킨다. 특히, 낮은 복잡도임에도 높은 품질의 필터 계수가 결정될 수 있다.
상기 제1 바이노럴 파라메터는 상기 바이 노럴 오디오 신호의 채널 사이의 상관성을 지시하는 일관성 파라메터를 포함한다.
상기 특성은 향상된 바이노럴 신호가 생성되게 하고/거나 복잡도를 감소시킨다. 특히, 요구되는 상관도는 필터링 이전의 낮은 복잡도 작동에 의해 효율적으로 제공될 수 있다. 구체적으로, 낮은 복잡도 서브밴드 행렬 곱은 바이노럴 신호에 요구되는 상관성 또는 일관성 특성을 도입하기 위해 수행될 수 있다. 이러한 특성은 필터가 변형될 것을 요구함 없이 필터링 전에 도입될 수 있다. 그래서, 특성은 상관성 또는 일관성 특성이 효과적으로 낮은 복잡도를 가지고 제어되도록 할 수 있다.
본 발명의 선택적인 특성에 따르면, 상기 제1 바이노럴 파라메터가 상기 N-채널 신호의 어떠한 음향 소스의 위치를 나타내는 국지화(Localization) 파라메터와 상기 바이노럴 오디오 신호의 어떠한 음향 성분의 잔향(Reverberation)을 나타내는 잔향 파라메터 중 적어도 하나를 포함하지 않는다.
상기 특성은 향상된 바이노럴 신호가 생성되게 하고/거나 복잡도를 감소시킨다. 특히, 상기 특성은 국지화 정보 및/또는 잔향 파라메터가 필터에 의해 배타적으로 제어되어 작동을 용이하게 하고/거나 향상된 품질을 제공한다. 바이노럴 스테레오 채널의 일관도 또는 상관도는 전환 수단에 의해 제어되어 상관성/일관성과 국지화 및/또는 잔향이 독립적으로 제어될 수 있게 하고 그것이 가장 실용적이거나 효율적이다.
본 발명의 선택적인 특성에 따르면, 상기 계수 수단은 상기 바이노럴 오디오 신호의 국지화 큐(Cue)와 잔향 큐 중 적어도 하나를 반영하는 상기 필터 계수를 결정하기 위해 마련 되어있다.
상기 특성은 향상된 바이노럴 신호가 생성되게 하고/거나 복잡도를 감소시킨다. 특히, 요구되는 국지화 또는 잔향 특성이 서브밴드 필터링에 의해 효율적으로 제공될 수 있어 향상된 품질을 제공하고 특히, 예를 들어, 에코익 오디오 환경이 효과적으로 시뮬레이션 되게 한다.
상기 오디오 M-채널 오디오 신호는 모노 오디오 신호이고 상기 전환 수단은 상기 모노 오디오 신호로부터 역상관된(Decorrelated) 신호를 생성하고 상기 역상관된 신호와 상기 모 노 오디오 신호를 포함하는 스테레오 신호의 샘플에 적용되는 행렬 곱에 의해 상기 제1 스테레오 신호를 생성하기 위해 마련된다.
상기 특성은 향상된 바이노럴 신호가 생성되게 하고/거나 복잡도를 감소시킨다. 특히, 본 발명은 일반적으로 사용 가능한 공간 파라메터로부터 생성된 높은 품질의 바이노럴 오디오 신호를 생성하기 위해 모든 요구되는 파라메터를 허용할 수 있다.
본 발명의 다른 측면에 따르면, 바이노럴 오디오 신호를 생성하는 방법은 N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디 오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(S patial Parameter Data)를 포함하는 오디오 데이터를 수신하는 단계; 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제 1 바이노럴 파라메터로 전환하는 단계; 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디 오 신호를 제1 스테레오 신호로 전환하는 단계; 상기 제1 스테레오 신호를 필터링함으로써 상기 바 이노럴 오디오 신호를 생성하는 단계; 및 상기 적어도 하나의 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 단계를 포함한다.
본 발명의 다른 측면에 따르면, 바이노럴 오디오 신호를 전송하는 전송기는 N-채널 오 디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱 (Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단; 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응 답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단; 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하 는 전환 수단; 상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터; 상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수 를 결정하는 계수 수단; 및 상기 바이노럴 오디오 신호를 전송하기 위한 수단을 포함한다.
본 발명의 다른 측면에 따르면, 오디오 신호를 전송하기 위한 전송 시스템은 N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이 터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단, 적어도 하나의 바이 노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파 라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단, 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단, 상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터, 상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단, 과 상기 바이 노럴 오디오 신호를 전송하기 위한 수단을 포함하는 전송기; 그리고 상기 바이노럴 오디오 신호를 수신 하기 위한 수신기를 포함한다.
본 발명의 다른 측면에 따르면, 바이노럴 오디오 신호를 기록하기 위한 오디오 기록 장치는 N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파 라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단; 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터 의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단; 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단; 상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터; 상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단; 및 상기 바이노럴 오디오 신호를 기록하기 위한 수단을 포함한다.
본 발명의 다른 측면에 따르면, 바이노럴 오디오 신호를 전송하는 방법은 N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹 싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 단계; 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 단계; 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 단계; 상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 단계; 상기 바이노럴 지각 전달 함수 에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 단계; 및 상기 바이노럴 오디오 신호를 전송하는 단계를 포함한다.
본 발명의 다른 측면에 따르면, 바이노럴 오디오 신호를 송수신하는 방법은 송신기가 N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파 라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 단계; 적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 단계; 상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 단계; 상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 단계; 상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터 의 필터 계수를 결정하는 단계; 및 상기 바이노럴 오디오 신호를 전송하는 단계를 수행하는 단계; 그리고 수신기가 상기 바이노럴 오디오 신호를 수신하는 단계를 수행하는 단계를 포함한다.
본 발명의 다른 측면에 따르면, 상기 설명한 방법 중의 방법을 수행하기 위한 컴퓨터 프로그램 제품이 제공된다.
본 발명의 이들 및 다른 측면, 특성 및 장점은 이하에서 설명되는 실시형태에 관해 상술되고 실시형태로부터 명백해질 것이다.
상관성/일관성 행렬 곱과 국지화(Localization) 및 잔향 필터링에 기초한 필터의 분리는 요구되는 파라메터가 예를 들어 모노 신호에서 쉽게 계산될 수 있는 한 시스템을 제공한다. 특히, 일관성 파라메터를 결정하고 구현하기 어렵거나 불가능한 완전한 필터링 방법(Pure Filtering Approach)과 대조적으로 다른 타입의 프로세싱 조합은 일관성(Coherency)이 모노 다운믹스 신호에 기초한 어플리케이션에서 효과적으로 제어되게 한다.
본 발명의 실시형태는 ,단지 실시예를 거쳐, 도면과 관련하여 설명될 것이다.
도 1은 선행기술에 따른 바이노럴 신호의 생성을 위한 방법의 일 예이고;
도 2는 선행기술에 따른 바이노럴 신호의 생성을 위한 방법의 일 예이고;
도 3은 선행기술에 따른 바이노럴 신호의 생성을 위한 방법의 일 예이고;
도 4는 본 발명의 일부 실시형태에 따른 바이노럴 오디오 신호를 생성하는 장치를 나타내고;
도 5는 본 발명의 일부 실시형태에 따른 바이노럴 오디오 신호를 생성하는 방법의 실시예의 흐름도를 나타내고; 및
도 6는 본 발명의 일부 실시형태에 따른 오디오 신호의 소통(Communication)을 위한 전송 시스템의 실시예를 나타낸다.
이하 설명은 복수의 공간 채널의 모노 다운믹스로부터 바이노럴 스테레오 신호의 합성에 적용가능한 발명의 실시형태에 초점을 둔다. 특히, 설명은 입력으로서 5 채널(첫 번째 ‘5’에 의해 표시된), 모노 다운 믹스(첫 번째 '1'), 5-채널 복원(두 번째 '5') 및 트리 구조에 따른 공간 파라메터화 '1'를 가지고 있는 속칭 ‘5151’ 구성을 사용하여 인코딩된 MPEG 서라운드 음향 비트 스트림으로부터 헤드폰 재생을 위한 바이노럴 신호의 생성으로 이해될 수 있다. 여러 트리 구조의 상세화된 정보는 Herre, J., Kj, K., Breebaart, J., Faller, C., Disch, S., Purnhagen, H., Koppens, J., Hilpert, J., R, J., Oomen, W., Linzmeier, K., Chong, K. S. “MPEG Surround The ISO/MPEG standard for efficient and compatible multi-channel audio coding”, Proc. 122 AES convention, Vienna, Austria (2007) and Breebaart, J., Hotho, G., Koppens, J., Schuijers, E., Oomen, W., van de Par, S. “Background, concept, and architecture of the recent MPEG Surround standard on multi-channel audio compression” J. Audio Engineering Society, 55, p 331-351 (2007)에서 찾을 수 있다. 하지만 본 발명이 이러한 어플리케이션에 한정되지 않고 예를 들어 스테레오 신호로 다운믹스된 서라운드 음향 신호을 포함하는 많은 다른 오디오신호에 적용될 수 있다는 것이 이해될 수 있을 것이다.
선행기술에서 도 3의 그것과 같은 장치들은, 긴(long) HRTF 또는 BRIR는 파라메터화된 데이터와 행렬 유닛(311)에 의한 행렬연산에 의해 효과적으로 나타나지 않는다. 사실상, 서브밴드 행렬 곱(Subband Matrix Multiplication)은 서브밴드 타임 도메인으로의 변환에 사용되는 변환 시간 간격(Transform Time Interval)에 대응하는 기간을 가진 시간 도메인 임펄스 응답을 나타내는 것에 제한된다. 예를 들어, 만일 변환이 고속 푸리에 변환(Fast Fourier Transform(FFT))이라면 N 샘플의 각각의 FFT 간격은 행렬 유닛에 제공되는 N 서브밴드 샘플로 전송된다. 하지만, N 샘플보다 긴 임펄스 응답은 충분히 나타나지 않을 것이다.
이러한 문제의 한 가지 해결책은 행렬 연산이 개별 서브밴드가 필터링 되는 행렬 필터링 방법에 의해 대체되는 서브밴드 도메인 필터링 방법을 사용하는 것이다. 그래서, 이러한 실시형태에서, 간단한 행렬 곱 대신에 서브밴드 프로세싱은 이처럼:
Figure 112010022243671-pct00015
주어지고
Figure 112010022243671-pct00016
는 HRTF/BRIR 함수들을 나타내는 필터에 사용되는 텝(Tap)들의 수이다.
이러한 방법은 효과적으로 각각의 서브밴드(행렬 유닛(311)의 입력 채널과 출력 채널의 각 순열 중 하나)에 네 필터를 적용하는 것에 대응된다.
비록, 이러한 방법이 어떠한 실시형태에서는 유용할 수 있지만, 그것은 또한 관련되어 어떠한 불이익이 있다. 예를 들어, 시스템은 프로세싱을 위해 리소스 요구량과 복잡도를 상당히 증가시키는 각 서브밴드를 위한 네개의 필터가 필요하다. 또한, 많은 경우 요구되는 HRTF/BRIR 임펄스 응답에 정확하게 대응되는 파라메터를 생성하는 것은 복잡하고, 어렵고 심지어 불가능하다.
특히, 도 3의 간단한 행렬 곱에서, 양 파라메터 타입이 동일한 (파라메터)도메인에 존재하기 때문에 바이노럴 신호의 일관성(Coherence)은 HRTF 파라메터와 전송된 공간 파라메터의 도움으로 추정될 수 있다. 바이노럴 신호의 일관성은 개별 음향 소스 신호(공간적 파라메터에 의해 설명된 것처럼), 와 개별적 위치로부터 고막까지의 음향적 경로(HRTFs에 의해 설명된)사이의 일관성에 의존한다. 만일 상관된 신호레벨, 페어와이즈 일관성 값(Pairwise Coherence Value), 및 HRTF 전달 함수가 모두 통계적인(파라메트릭한) 방법으로 설명된다면, 공간적 렌더링(Rendering)과 HRTF 프로세싱의 혼합된 결과로부터 야기된 순 일관성(Net Coherence)은 파라메터 도메인에서 직접적으로 추정될 수 있다. 이 프로세스는 Breebaart, J. “Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround”, Proc. ICME, Beijing, China (2007) and Breebaart, J., Faller, C. “Spatial audio processing: MPEG Surround and other applications”, Wiley & Sons, New York (2007)에서 설명된다. 만일 요구되는 일관성이 알려진 경우, 상기 특정한 값에 따른 성관성을 가진 출력신호는 행렬 연산을 사용한 모노신호와 역상관기 신호의 조합에 의해 얻어질 수 있다. 이 프로세스는 Breebaart, J., van de Par, S., Kohlrausch, A., Schuijers, E. “Parametric coding of stereo audio”, EURASIP J. Applied Signal Proc. 9, p 1305-1322 (2005) and Engdeg, J., Purnhagen, H., R, J., Liljeryd, L. “Synthetic ambience in parametric stereo coding”, Proc. 116th AES convention, Berlin, Germany(2004)에 설명되어 있다.
결과적으로, 역상관기 신호 행렬 엔트리(
Figure 112010022243671-pct00017
Figure 112010022243671-pct00018
)는 공간 파라메터와 HRTF 파라메터 사이에 상대적으로 간단한 관계로부터 나온다. 하지만, 위에서 설명한 것과 같은 필터 응답을 위해서는, 요구되는 일관성 값이 나머지 부분(후기 잔향(The late Reverberation))보다 BRIR의 제1 부분(직접 음향(Direct Sound))에 따라 다르기 때문에 바이노럴 합성(Binaural Synthesis)과 공간 디코딩(Spatial Decoding)으로 부터 얻어지는 순 일관성을 계산하는 것은 상당히 더 어렵다.
특히, BRIR의 경우, 요구되는 특성은 시간에 따라 상당히 변할 수 있다. 예를 들어, BRIR의 첫 번째 부분은 직접 음향(Direct Sound)(공간 효과(Room Effect)가 없는)으로 설명된다. 그러므로 이 부분은 매우 지향성(Directional)(예를 들어 레벨 차이와 도착 시간 차이와, 높은 일관성에 의해 반영된 분명한 국지적(Localization) 특성과 함께)이 있다. 다른 한편으로는, 초기 반사(Early Reflection)와 후기 잔향(Late Reverberation)은 종종 상대적으로 지향성이 낮다. 그래서, 귀 사이의 레벨 차이는 덜 확연하고, 도착 시간 차이는 이러한 확률적 속성 때문에 정확하게 결정하기 어렵고, 일관성은 많은 경우에 있어 매우 낮다. 이러한 국지화 특성(Localization Property)의 변화는 정확하게 포착하는 것이 중요하지만 이것은 필터 응답의 일관성이 실제 필터 응답 내의 위치에 종속하여 변하는 것이 요구되기 때문에 어려울 수 있고, 반면에 동시에 전체 필터 응답(Full Filter Response)은 공간적 파라메터와 HRTF 계수에 종속해야만 한다. 요구사항의 조합은 프로세스 단계의 제한된 수로 충족되기는 어렵다.
요약하면, 바이노럴 출력 신호들 사이의 올바른 일관성(Correct Coherence)을 결정하는 것과 그것의 올바른 시간적 행동(Temporal Behavior)을 보장하는 것은 모노 다운믹스에 있어서 매우 어렵고 선행기술의 행렬 곱 방법으로 알려진 방법을 사용하는 것은 일반적으로 불가능하다.
도 4는 본 발명의 일부 실시형태를 따라 바이노럴 오디오 신호를 생성하는 장치를 나타낸다. 설명된 방법에서, 긴 에코 또는 잔향을 가진 오디오 환경이 모방되도록 하기 위해 파라메트릭 행렬 곱은 낮은 복잡도의 필터링과 혼합되어 있다. 특히, 시스템은 낮은 복잡도와 실현 가능한 구현을 유지하는 동안 긴 HRTF/BRIR이 사용되도록 한다.
장치는 N-채널 오디오 신호의 다운믹스인 오디오 M-채널 오디오 신호로 구성되는 오디오 데이터 비트 스트림를 수신하는 디멀티플렉서(401)를 포함한다. 부가적으로, 데이터는 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱 하기 위한 공간적 파라메터 데이터를 포함한다. 구체적인 실시예에서, 다운믹스 신호는 모노 신호 즉 M=1 이고 N 채널 오디오 신호는 5.1 서라운드 신호, 즉 N=6 이다. 오디오 데이터는 구체적으로 서라운드 신호의 MPEG 서라운드 인코딩이고 공간 데이터는 상호 레벨 차이(Inter Level Differences(ILDs))와 상호-채널 상호-상관(Inter-channel Cross-Correlation(ICC))파라메터로 구성된다.
모노 신호의 오디오 데이터는 디멀티플렉서(401)와 연결된 디코더(403)에 제공된다. 디코더(403)는 당업자에게 잘 알려진 적합한 기존의 디코딩 알고리즘을 사용하여 모노 신호를 디코딩할 수 있다. 그래서, 실시예에서, 디코더(403)의 출력은 디코딩된 모노 오디오 신호이다.
디코더(403)는 디코딩된 모노 신호를 시간 도메인으로부터 주파수 서브밴드 도메인으로 전환하기 위해 사용할 수 있는 변환 프로세서(Transform Processor)(405)와 연결되어 있다. 어떠한 실시형태에서, 변환 프로세서(405)는 신호를 변환 간격 (적합한 수의 샘플을 구성하는 샘플 블록에 상응하는)으로 나누는 데 마련될 수 있고 각각의 변환 시간 간격(Transform Time Interval)에서 고속 푸리에 변환(FFT)을 수행한다. 예를 들어, FFT는 64 복소 서브밴드 샘플(Complex Subband Sample)을 생성하기 위해 FFT가 적용되는 64 샘플 블록으로 나뉘어진 모노 오디오 샘플을 가진 64 포인트 FFT일 수 있다.
구체적인 실시예에서는, 변환 프로세서(405)는 64 샘플 변환 간격을 가지고 동작하는 QMF 필터 뱅크를 포함한다. 그래서, 64 시간 도메인 샘플의 각각의 블록에서, 64 서브밴드 샘플은 주파수 도메인에서 생성된다.
실시예에서, 수신된 신호는 바이노럴 스테레오 신호로 업믹스되어야 하는 모노 신호이다. 그래서, 주파수 서브밴드 모노 신호는 모노 신호의 역-상관된(De-correlated) 형태를 생성하는 역상관기(decorrelator)(407)에 제공된다. 본 발명으로부터 손상됨이 없이 역-상관된 신호를 생성하는 어떠한 적당한 방법이라도 사용될 수 있음을 이해할 수 있을 것이다.
변환 프로세서(405)와 역상관기(407)는 행렬 프로세서(Matrix Processor)(409)에 제공된다. 그래서, 모노 신호의 서브밴드 표현뿐 아니라 생성된 역상관 신호의 서브밴드 표현은 행렬 프로세서(409)에 제공된다. 행렬 프로세서(409)는 모노 신호를 첫 번째 스테레오 신호로 전환하기 위해 진행된다. 특히, 행렬 프로세서(409)는 각 서브밴드에 주어진 행렬 곱:
Figure 112010022243671-pct00019
을 수행하며,
Figure 112010022243671-pct00020
Figure 112010022243671-pct00021
은 행렬 프로세서(409)의 입력 신호의 샘플, 즉 구체적인 실시예에서
Figure 112010022243671-pct00022
Figure 112010022243671-pct00023
는 모노 신호와 역상관된 신호(Decorrelated Signal)의 서브밴드 샘플이다.
행렬 프로세서(409)에 의해 수행되는 전환은 HRTF/BRIR에 응답하여 생성되는 바이노럴 파라메터에 종속한다. 실시예에서, 전환은 수신된 모노 신호와 (부가적) 공간 채널을 관련시키는 공간적 파라메터에 또한 종속한다.
특히, 행렬 프로세서(409)는 디멀티플렉서(401)와 요구되는 HRTF(들)(또는 동일하게 요구되는 BRIR(들))를 나타내는 데이터를 포함하는 HRTF 스토어(HRTF Store)(413)와 또한 연결되는 전환 프로세서(Conversion Processor)(411)에 연결된다. 이하는 간결하게 HRTF(들)만 언급하지만 BRIR(들)이 HRTF(들) 대신에(또한) 사용될 수 있다 라는 것을 이해할 수 있을 것이다. 전환 프로세서(411)은 디멀티플레서로부터 공간적 데이터와 HRTF 스토어(413)로부터 HRTF를 나타내는 데이터를 수신한다. 전환 프로세서(411)은 HRTF 데이터에 응답하여 공간적 파라메터를 제1 바이노럴 파라메터로 전환함으로써 행렬 프로세서(409)에 의해 사용되는 바이노럴 파라메터를 이어서 생성한다.
하지만, 실시예에서, 출력 바이노럴 신호를 생성하는 데 필요한 HRTF와 공간적 파라메터의 전체 파라메터화(Full Parameterization)는 계산되지 않는다. 더욱이, 행렬 곱에서 사용되는 바이노럴 파라메터는 요구되는 HRTF응답의 부분을 반영할 뿐이다. 특히, 바이노럴 파라메터는 단지 HRTF/BRIR의 직접적인 부분(Direct part)(초기 반사와 후기 잔향을 제외한)으로 추정된다. 이것은 기존의 파라메터 예측 프로세스를 사용하고, 단지 HRTF 파라메터화 프로세스동안만의 HRTF 시간-도메인 임펄스 응답의 제1 피크를 사용하여 얻어진다. 단지 직접적인 부분(Direct Part)의 야기된 일관성(레벨 및/또는 시간차이와 같은 국지화 큐(Localization Cue)를 제외한)은 뒤이어 2x2 행렬에서 사용된다. 사실상, 특정한 실시예에서, 행렬 계수는 요구되는 일관성이나 바이노럴 신호의 상관성을 단순히 반영하도록 생성되고 국지적 또는 잔향 특성의 고려를 포함하지 않는다.
그래서 행렬곱은 단지 요구되는 프로세싱의 일부분을 수행하고 행렬 프로세서(409)의 출력은 최종적인 바이노럴 신호가 아니고 오히려 채널간의 직접 음향의 요구되는 일관성을 반영하는 중간(바이노럴) 신호이다.
실시예에서 행렬 계수
Figure 112010022243671-pct00024
의 형태의 바이노럴 파라메터는 N-채널 신호의 여러 오디오 채널에서 공간적 데이터에 기초하고 특히 거기에 포함된 레벨 차이 파라메터에 기초하여 상대적인 신호 파워를 우선 계산함으로써 생성된다. 각 바이노럴 채널의 상대적인 파워는 이러한 값과 각 N 채널과 연관된 HRTF에 기초하여 계산된다. 또한, 바이노럴 신호 사이의 상호 상관 예상 값은 HRTF와 각 N-채널의 신호 파워에 기초하여 계산된다. 바이노럴 신호의 혼합된 파워와 상호 상관에 기초하여, 채널을 위한 일관성 양(Coherence measure)는 그 뒤에 계산되고 행렬 파라메터는 이 상관성(Correlation)을 제공하기 위해 결정된다. 바이노럴 신호가 어떻게 생성될 수 있는지에 관한 특정한 세부사항은 후에 설명된다.
행렬 프로세서(409)는 행렬 프로세서(409)에 의해 생성되는 스테레오 신호를 필터링함으로써 출력 바이노럴 오디오 신호를 생성하는 데 사용되는 두 필터(415, 417)와 연결된다. 특히, 각 두 신호는 개별적으로 모노 신호로서 필터링되고 하나의 채널에서 다른 채널로 가는 어떠한 신호도 교차 커플링(Cross Coupling)도 없는 것이 소개되어 있다. 따라서, 단지 두 모노 필터가 적용되고 그것 때문에 예를 들어 네 개의 필터가 요구되는 방법과 비교하여 복잡도가 감소한다.
필터들(415, 417)은 각 서브밴드가 개별적으로 필터링되는 서브밴드 필터이다. 특히, 각 필터는 유한 임펄스 응답(Finte Impulse Response(FIR)) 필터일 수 있고 :
Figure 112010022243671-pct00025
에 의해 각 서브밴드에서 필터링을 수행하고 y는 행렬 프로세서(409)로부터 받은 서브밴드 샘플을 나타내고 c는 필터계수, n은 샘플 넘버(변환 간격 수에 연관된), k는 서브밴드이고 N은 필터의 임펄스 응답의 길이이다. 그래서, 각 개별적 서브밴드에서, “시간 도메인” 필터링이 수행되고 그렇게 함으로써 복수의 변환 간격으로부터의 서브밴드 샘플을 고려하기 위해서 단일 변환 간격으로부터 프로세싱을 확장한다.
MPEG 서라운드의 신호 변환은 복소 변환된 필터 뱅크, 임계적으로 샘플링(Critically Sampled)되지 않은 QMF, 의 도메인에서 수행된다. 그것의 특정한 디자인은 주어진 시간 도메인 필터가 시간 방향(Time Direction)에서 각 서브밴드 신호를 개별 필터로 필터링함으로써 높은 정확성으로 구현되도록 한다. 필터 구현으로 야기된 전체 SNR은 에러가 상당히 작아지는 엘리어싱(Aliasing) 부분인 50dB 범위에 있다. 또한, 이러한 서브밴드 도메인 필터는 주어진 시간 도메인 필터로부터 직접적으로 얻어질 수 있다. 시간 도메인 필터
Figure 112010022243671-pct00026
에 상응하는 서브밴드 도메인 필터를 연산하기 위한 특히 매력적인 방법은 QMF 필터 뱅크의 프로토타입 필터로부터 나온 FIR 프로토타입 필터
Figure 112010022243671-pct00027
를 가진 제2 복소 변환 분석 필터 뱅크(a second complex modulated analysis filter bank)를 사용하는 것이다. 구체적으로,
Figure 112010022243671-pct00028
이며, 여기서 L=64이다.
MPEG 서라운드 QMF 뱅크에서, 필터 컨버터 프로토타입 필터
Figure 112010022243671-pct00029
는 192개의 탭(Tab)을 가지고 있다. 하나의 예로서 1024탭을 가진 시간 도메인 필터는 시간 방향에 모두 18개의 탭을 가진 64개의 서브밴드 필터의 집합으로 전환될 수 있다.
필터 특성은 실시예에서 공간적 파라메터의 측뿐 아니라 요구되는 HRTF의 측 양쪽을 반영하여 생성된다. 생성된 바이노럴 신호의 잔향(Reverberation) 및 국지성(localization) 특성은 필터에 의해 도입되고 제어될 수 있도록 특히, 필터 계수(Filter Coefficient)는 HRTF 임펄스 응답과 공간적 위치 큐(Spatial Location Cue)에 응답하여 결정된다. 바이노럴 신호의 직접 부분(Direct Part)의 상관성 (Correlation)이나 일관성(Coherency)은 필터의 직접부분이 (거의) 일관적이라고 가정한 필터링에 의해서는 영향을 받지 않고 그래서 바이노럴 출력의 직접 음향(Direct Sound)의 일관성(Coherency)은 상기 전술한 행렬 연산에 의해 완전히 정의된다. 필터의 후기 잔향부분은, 반면에, 왼쪽 및 오른쪽 귀 필터 사이에서 상관성이 없다고 추정되고 그래서 구체적인 부분의 출력은 항상 상관되지 않고 이 필터들에 제공되는 신호의 일관성에 독립적이다. 이러한 이유로 요구되는 일관성에 대하여 필터의 변형은 요구되지 않는다. 그래서, 나머지 잔향 부분은 자동적으로 실제 행렬값에 독립적인, 적절한(Correct)(낮은) 상관성을 가지는 반면에 필터를 선행하는 행렬 연산은 직접 부분의 요구되는 일관성(The Desired Coherence)을 결정한다. 그래서, 필터링은 행렬 프로세서(409)에 의해 도입된 요구되는 일관성을 유지한다.
그래서, 도 4의 장치에서 행렬 프로세서(409)에 의해 사용되는 바이노럴 파라메터들(행렬 계수의 형태)는 바이노럴 오디오 신호의 채널간의 상관성을 보여주는 일관성 파라메터이다. 하지만, 이 파라메터들은 바이노럴 오디오 신호의 어떠한 음향 소스의 위치를 나타내는 국지화(Localization) 파라메터 또는 바이노럴 오디오 신호의 어떠한 음향 구성성분의 잔향을 나타내는 잔향 파라메터를 포함하지 않는다. 더욱이 이들이 바이노럴 오디오 신호의 국지화 큐(Localization Cue)와 잔향 큐(Reverberation Cue)를 반영하도록 이 파라메터들/특성들은 필터 계수를 결정함으로써 차후의 서브밴드 필터링에 의해 도입된다.
특히, 필터는 디멀티플렉서(401)와 HRTF 스토어(413)와 또한 연결된 계수 프로세서(Coefficient Processor)(419)와 연결되어 있다. 계수 프로세서(419)는 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function(s))에 응답하여 스테레오 필터(415, 417)를 위한 필터 계수를 결정한다. 또한, 계수 프로세서(419)는 멀티플렉서(401)로부터 공간적 데이터를 받고 이것을 필터 계수를 결정하는 데 사용한다.
특히, HRTF 임펄스 응답은 서브밴드 도메인으로 전환되고 임펄스 응답이 단일 변환 간격(Single Transform Interval)을 넘기 때문에 이것은 하나의 단일 서브밴드 계수보다 각 서브밴드의 각 채널에 임펄스 응답을 가지고 온다. 각 N 채널에 해당하는 각 HRTF 필터의 임펄스 응답은 가중합산(Weighted Summation)으로 더해진다. 각 N HRTF 필터 임펄스 응답에 적용되는 가중치(Weight)는 공간적 데이터에 의해 결정되고 특히 다른 채널들 사이의 적당한 파워 분배를 하도록 결정된다. 특히 어떻게 필터 계수가 생성되는지에 대한 구체적인 디테일은 뒤에 설명될 것이다.
그래서 필터 415, 417의 출력은 헤드폰에 나타날 때 효과적으로 완전한 서라운드 신호를 모방하는 바이노럴 오디오 신호의 스테레오 서브밴드 표현이다. 필터 415, 417은 서브밴드 신호를 시간 도메인으로 전환하는 역 변환을 수행하는 역 변환 프로세서(421)와 연결되어 있다. 특히, 역 변환 프로세서(421)는 역 QMF 변환(Inverse QMF Transform)을 수행한다.
그래서, 역 변환 프로세서(421)의 출력은 헤드폰 셋에서 서라운드 음향 경험을 제공하는 바이노럴 신호이다. 신호는 예를 들어 기존의 스테레오 인코더를 사용하여 인코딩되거나 및/또는 헤드폰에 직접 들어가는 신호를 제공하기 위하여 아날로그 투 디지털 컨버터(Analog to Digital)에서 아날로그 도메인으로 전환된다.
그래서, 도 4의 장치는 바이노럴 신호를 제공하기 위하여 파라메트릭 HRTF 행렬 프로세싱과 서브밴드 필터링을 혼합한다. 상관성/일관성 행렬 곱과 국지화 (Localization) 및 잔향 필터링에 기초한 필터의 분리는 요구되는 파라메터가 예를 들어 모노 신호에서 쉽게 계산될 수 있는 한 시스템을 제공한다. 특히, 일관성 파라메터를 결정하고 구현하기 어렵거나 불가능한 완전한 필터링 방법(Pure Filtering Approach)과 대조적으로 다른 타입의 프로세싱 조합은 일관성(Coherency)이 모노 다운믹스 신호에 기초한 어플리케이션에서 효과적으로 제어되게 한다.
그래서, 설명된 방법은 정확한 일관성(Correct Coherence)의 합성(행렬 곱을 사용한)과 국지화 큐와 잔향의 생성(필터를 사용한)이 완전히 분리되고 독립적으로 제어된다는 장점이 있다. 또한, 교차 채널 필터링이 필요하지 않기 때문에 필터의 수는 둘로 제한된다. 필터는 일반적으로 간단한 행렬 곱보다 더욱 복잡하기 때문에, 복잡도는 감소한다.
이하에서, 요구되는 행렬 바이노럴 파라메터와 필터 계수가 어떻게 계산되는지에 대한 구체적인 실시예가 설명될 것이다. 실시예에서, 수신된 신호는 ‘5151’ 트리 구조를 사용하여 인코딩된 MPEG 서라운드 비트 스트림이다.
설명에서 이하의 두문자가 사용될 것이다:
l 또는 L: 왼쪽 채널
r 또는 R: 오른쪽 채널
f: 프론트 채널(들)
s: 서라운드 채널(들)
c: 센터 채널
ls: 왼쪽 서라운드
rs: 오른쪽 서라운드
lf: 왼쪽 프론트
lr: 왼쪽 오른쪽
공간 데이터는 이하의 파라메터를 가지는 MPEG 데이터 스트림을 구성한다:
파라메타 설명
Figure 112010022243671-pct00030
프론트 대 서라운드의 레벨 차이
Figure 112010022243671-pct00031
프론트 대 센터의 레벨 차이
Figure 112010022243671-pct00032
프론트 왼쪽 대 프론트 오른쪽의 레벨 차이
Figure 112010022243671-pct00033
서라운드 왼쪽 대 서라운드 오른쪽의 레벨 차이
Figure 112010022243671-pct00034
프론트 대 서라운드의 상관성
Figure 112010022243671-pct00035
프론트 대 센터의 상관성
Figure 112010022243671-pct00036
프론트 왼쪽 대 프론트 오른쪽의 상관성
Figure 112010022243671-pct00037
서라운드 왼쪽 대 서라운드 오른쪽의 상관성
Figure 112010022243671-pct00038
센터 대 LFE의 레벨 차이
우선, 행렬 프로세서(409)에 의한 행렬 곱에 사용되는 바이노럴 파라메터의 생성이 설명될 것이다.
전환 프로세서(411)는 우선 바이노럴 출력 신호의 채널들 사이의 요구되는 일관성을 반영하는 파라메터인 바이노럴 일관성(Coherency)의 추정치를 연산한다. 추정은 공간 파라메터 뿐만 아니라 HRTF 함수를 위해 결정되는 HRTF 파라메터를 사용한다.
특히, 이하 HRTF 파라메터들이 사용된다:
Figure 112010022243671-pct00039
왼쪽 귀에 연관된 HRTF의 특정 주파수 영역의 rms 파워
Figure 112010022243671-pct00040
오른쪽 귀에 연관된 HRTF의 특정 주파수 영역의 rms 파워
Figure 112010022243671-pct00041
특정한 가상 음향 소스 위치에서 왼쪽 및 오른쪽-귀 HRTF사이의 특정한 주파수 영역의 일관도.
Figure 112010022243671-pct00042
특정한 가상 음향 소스 위치에서 왼쪽 및 오른쪽-귀 HRTF사이의 특정한 주파수 영역의 평균 위상 차이.
왼쪽 및 오른쪽 귀 각각을 위한 주파수 도메인 HRTF 표현이
Figure 112010022243671-pct00043
이고, 주파수 인덱스를
Figure 112010022243671-pct00044
라고 하면 이 파라메터는 :
Figure 112010022243671-pct00045
에 따라 계산될 수 있다.
Figure 112010022243671-pct00046
에 걸친 합은 각 파라메터 영역
Figure 112010022243671-pct00047
의 파라메터 집합을 만들기 위해 각 파라메터 밴드에서 수행된다. HRTF 파라메터화 프로세스의 더 많은 정보는 Breebaart, J. “Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround”, Proc. ICME, Beijing, China (2007) and Breebaart, J., Faller, C. “Spatial audio processing: MPEG Surround and other applications”, Wiley & Sons, New York (2007)으로부터 얻어질 수 있다.
위의 파라메터화 프로세스는 각 파라메터 영역과 각 가상 라우드 스피커 위치에서 독립적으로 수행된다. 이하에서, 라우드스피커 위치는
Figure 112010022243671-pct00048
가 라우드스피커 식별자(lf, rf, c, ls 또는 ls)인
Figure 112010022243671-pct00049
에 의해 표현된다.
첫 번째 단계로, 5.1-채널 신호의 상대적인 파워(모노 입력 신호의 파워에 대한)는 전송된
Figure 112010022243671-pct00050
파라메터를 사용하여 연산된다. 왼쪽-프론트 채널의 상대적인 파워는:
Figure 112010022243671-pct00051
Figure 112010022243671-pct00052
일 때
Figure 112010022243671-pct00053
로 주어진다.
유사하게, 다른 채널들의 상대적인 파워는:
Figure 112010022243671-pct00054
에 의해 주어진다.
각 가상(Virtual) 스피커의 파워인
Figure 112010022243671-pct00055
, 특정한 스피커 양쪽 사이의 일관성 값을 나타내는 ICC 파라메터 및 각 가상 라우드스피커의 HRTF 파라메터인
Figure 112010022243671-pct00056
Figure 112010022243671-pct00057
가 주어진 경우, 발생한 바이노럴 신호의 통계적인 속성이 추정될 수 있다. 이것은 각 가상의 라우드 스피커의 파워
Figure 112010022243671-pct00058
에 대한 기여(Contribution)를 더함으로써 얻어지고 HRTF에 의해 도입되어 각 귀의 파워 변화를 개별적으로 반영하는 HRTF의 파워
Figure 112010022243671-pct00059
,
Figure 112010022243671-pct00060
에 의해 곱해진다. 부가적인 항은 가상 라우드 스피커 신호(ICC)와 HRTF의 경로 길이(Path Length) 차이(파라메터
Figure 112010022243671-pct00061
에 의해 표현되는)간의 상호 상관성의 효과를 포함하는 것을 필요로 한다. (ref.e. g. Breebaart, J., Faller, C."Spatial audio processing:MPEG Surround and other apllication", Wiley & Sons, New York(2007)).
왼쪽 바이노럴 출력 채널
Figure 112010022243671-pct00062
(모노 입력 채널에 대한)의 상대적인 파워 예측치는:
Figure 112010022243671-pct00063
로 주어진다.
유사하게, 오른쪽 채널의 (상대적인) 파워는
Figure 112010022243671-pct00064
로 주어진다.
유사한 추청에 기초하고 유사한 기술을 사용하여, 바이노럴 신호 쌍(Pair)의 교차 곱
Figure 112010022243671-pct00065
의 예상치는
Figure 112010022243671-pct00066
로부터 계산될 수 있다.
바이노럴 출력(
Figure 112010022243671-pct00067
)의 일관성은 :
Figure 112010022243671-pct00068
으로 주어진다.
바이노럴 출력 신호
Figure 112010022243671-pct00069
의 결정된 일관도에 기초하고(국재화 큐와 잔향 특성을 무시하면)
Figure 112010022243671-pct00070
를 복구하는 데에 필요한 행렬 계수는 Breebaart, J., van de Par, S., Kohlrausch, A., Schuijers, E. “Parametric coding of stereo audio”, EURASIP J. Applied Signal Proc. 9, p 1305-1322 (2005)에서 구체화된 기존의 방법을 사용하여 계산될 수 있다.
Figure 112010022243671-pct00071
일 때
Figure 112010022243671-pct00072
Figure 112010022243671-pct00073
이하에서 계수 프로세서(419)에 의한 필터 계수의 생성이 설명된다.
우선, 바이노럴 오디오 신호에서 다른 음향 소스에 대응되는 바이노럴 지각 전달 함수의 임펄스 응답의 서브밴드 표현이 생성된다.
구체적으로, 도 4의 설명에서 개략화되어 설명된 필터 전환 방법을 사용함으로써 왼쪽 귀와 오른쪽 귀 임펄스 응답의 개별적인 QMF-도메인 표현인
Figure 112010022243671-pct00074
을 야기하는 QMF 도메인으로 전환된다. 상기 표현에서 X는 소스채널(X=Lf, Rf, C, Ls, Rs)을 의미하고, R과 L은 왼쪽 및 오른쪽 바이노럴 채널을 각각 나타내고, n은 변환 블록 수이고 k는 서브밴드를 나타낸다.
계수 프로세서(419)는 서브밴드 표현
Figure 112010022243671-pct00075
의 연관된 계수의 가중 조합(Weighted Combination)으로서 필터 계수를 결정한다. 구체적으로, FIR 필터(415, 417)의 필터 계수
Figure 112010022243671-pct00076
는:
Figure 112010022243671-pct00077

Figure 112010022243671-pct00078
로 주어진다.
계수 프로세서(419)는 이하에서 설명되는 것처럼 가중치는
Figure 112010022243671-pct00079
Figure 112010022243671-pct00080
로 계산한다. 우선, 선형 조합 가중치의 절대값은:
Figure 112010022243671-pct00081
로 결정된다.
그래서, 주어진 공간 채널에 해당하는 주어진 HRTF의 가중치는 그 채널의 파워 레벨에 상응하도록 선택된다.
두 번째, 스케일링 게인
Figure 112010022243671-pct00082
는 이하처럼 연산된다. 하이브리드 대역(Hybrid Band) k의 정규화된(Normalized) 타겟(Target) 바이노럴 출력 파워는 출력 채널 Y=L, R에서
Figure 112010022243671-pct00083
로 표현되고 필터
Figure 112010022243671-pct00084
의 파워 게인이
Figure 112010022243671-pct00085
에 의해 표현된다면, 스케일링 게인(Scaling Gain)
Figure 112010022243671-pct00086
Figure 112010022243671-pct00087
을 얻기 위해 조정된다.
만일 이것이 각 파라메터 영역에서 상수인 스케일링 게인과 함께 정확하게 얻어질 수 있다면, 스케일링은 필터 모핑(Filter Morphing)에서 제외될 수 있고 이전 섹션의 행렬 성분들을
Figure 112010022243671-pct00088
로 변환함으로써 수행된다.
이것이 유효하기 위해서, 조정되지 않은(Unscaled) 가중 조합
Figure 112010022243671-pct00089
Figure 112010022243671-pct00090
이 파라메터 영역 내에서 너무 많이 변화하지 않는 파워 게인을 가지는 것이 요구된다. 일반적으로, 이러한 변형의 주된 원인은 HRTF 응답간의 주된 딜레이 차로부터 발생한다. 본 발명의 어떠한 실시예에서는, 시간 도메인의 사전-정렬(Pre-alignment)은 주된(Dominating) HRTF 필터에서 수행되고 단순한 실제 조합 가중치(Simple Real Valued Combination Weights)는:
Figure 112010022243671-pct00091
로 적용될 수 있다.
본 발명의 다른 실시예에서, 이러한 딜레이 차이는 복소 가중치(Complex Valued Weight)를 도입함으로써, 주된 HRTF 쌍에 맞춰 대응된다. 프론트/ 백(Back) 쌍의 경우 이것은 이하 가중치에 사용된다.:
Figure 112010022243671-pct00092
Figure 112010022243671-pct00093
이고
Figure 112010022243671-pct00094
일때
Figure 112010022243671-pct00095
.
Figure 112010022243671-pct00096
Figure 112010022243671-pct00097
이고
Figure 112010022243671-pct00098
일때
Figure 112010022243671-pct00099
.
여기서
Figure 112010022243671-pct00100
는 서브밴드 필터
Figure 112010022243671-pct00101
Figure 112010022243671-pct00102
간의 복소 상호 상관의 언렙드 위상 각(Unwrapped Phase Angle)이다. 이 상호 상관(Cross Correlation)은 별표가 복소 켤레(Complex Conjugation)를 의미하는 곳에서
Figure 112010022243671-pct00103
에 의해 정의된다.
위상 언랩핑의 목적은 서브밴드 인덱스 k 함수처럼 가능한 느리게 변화하는 위상 곡선을 얻기 위해
Figure 112010022243671-pct00104
의 배수로 위상각을 올리는 선택의 자유를 사용하는 것이다.
위의 조합 식에서 위상 각 파라메터의 역할은 두요소이다. 우선, 프론트와 백 스피커간의 소스 위치에 대응되는 주 딜레이 시간을 모델링하는 조합 응답을 이끌어내는 슈퍼포지션 전의 프론트/백 필터의 딜레이 보상을 알려준다. 둘째, 언스케일드 필터의 파워 게인의 다양성을 감소시킨다.
만일 파라메터 영역 또는 하이브리드 영역에서 조합된 필터
Figure 112010022243671-pct00105
의 일관도
Figure 112010022243671-pct00106
이 1보다 작다면,
Figure 112010022243671-pct00107
을 따르기 때문에, 바이노럴 출력은 의도한 것보다 덜 일관적이 될 수 있다.
본 발명의 어떠한 실시예에 따른 이 문제에 대한 해결책은
Figure 112010022243671-pct00108
에 의해 정의된 행렬 요소 정의를 위한 변형된
Figure 112010022243671-pct00109
-값을 사용하는 것이다.
도 5는 발명의 어떠한 실시예에 따른 바이노럴 오디오 신호를 생성하는 방법의 실시예의 흐름도를 나타낸다.
방법은 오디오 데이터가 N 채널 오디오 신호의 다운믹스인 오디오 M-채널 오디오 신호와 M 채널 오디오 신호를 N 채널 오디오 신호로 업믹싱하기 위한 공간적 파라메터를 포함하여 수신하는 단계 501에서 시작된다.
단계 503이 단계 501을 따르며, 공간 파라메터 데이터의 공간 파라메터는 바이노럴 지각 전달 함수에 의해 제1 바이노럴 파라메터로 전환된다.
단계 505가 단계 503을 따르며, M-채널 오디오 신호는 제1 바이노럴 파라메터에 의해 제1 스테레오 신호로 전환된다.
단계 507이 단계 505를 따르며, 바이노럴 지각 전달 함수에 의해 필터 계수가 스테레오 필터를 위해 결정된다.
단계 509가 단계 507을 따르며, 바이노럴 오디오 신호는 스테레오 필터에서 제1 스테레오 신호를 필터링함으로써 생성된다.
예를 들어 도 4의 장치는 전송 시스템에서 사용될 수 있다. 도 6은 본 발명의 어떠한 실시예에 따른 오디오 신호의 통신(Communication)을 위한 전송 시스템의 실시예를 나타낸다. 전송 시스템은 구체적으로는 인터넷이 될 수 있는 네트워크(605)를 통한 수신기(603)와 연결된 전송기(Transmitter)(601)를 포함한다.
구체적인 실시예에서, 전송기(601)는 신호 기록 장치(Signal Recording Device)이고 수신기(603)은 신호 재생 장치(Signal Player Device)이지만 다른 실시형태에서는 전송기와 수신기는 다른 어플리케이션에서 다른 목적을 위해 사용될 수 있음을 이해할 수 있을 것이다. 예를 들어, 전송기(601) 및/또는 수신기(603)은 트랜스코딩 기능의 일부분으로 예를 들어 다른 신호 소스 또는 목적지에 인터페이스 기능을 제공할 수 있다. 특히, 수신기(603)은 인코딩된 서라운드 음향 신호를 수신할 수 있고 서라운드 음향 신호를 모방하는 인코딩된 바이노럴 신호를 생성한다. 인코딩된 바이노럴 신호는 다른 소스에 분배될 수 있다.
신호 기록 함수(Signal Recording Function)가 사용되는 구체적인 실시예에서, 전송기(601)는 샘플링과 아날로그-디지탈 전환에 의해 디지털 PCM(Pulse Code Modulation)신호로 전환된 아날로그 멀티-채널(서라운드) 신호를 수신하는 디지타이저(Digitizer)(607)를 포함한다.
디지타이저(607)는 인코딩 알고리즘에 따라 PCM 멀티 채널 신호를 인코딩하는 도 1의 인코더(609)와 연결된다. 구체적인 실시예에서, 인코더(609)는 인코딩된 MPEG 서라운드 음향 신호로서 신호를 인코딩한다. 인코더(609)는 인코딩된 신호를 수신하고 인터넷(605)에 인터페이스를 제공하는 네트워크 전송기(611)와 연결되어 있다. 네트워크 전송기는 인코딩된 신호를 인터넷(605)를 통하여 수신기(603)에 전송한다.
수신기(603)는 인터넷(605)에 인터페이스를 제공하고 전송기(601)로부터 인코딩된 신호를 수신하기 위해 마련된 네트워크 수신기(613)을 포함한다.
네트워크 수신기(613)는 도 4 장치의 실시예에 있는 바이노럴 디코더(615)와 연결된다.
신호 재생 기능이 제공되는 구체적인 실시예에서, 수신기(603)는 바이노럴 디코더(615)로부터 바이노럴 오디오 신호를 수신하고 사용자에게 이것을 나타내는 신호 재생기(1617)를 더 포함한다. 구체적으로, 신호 재생기(117)은 바이노럴 오디오 신호를 헤드폰의 셋에 출력하는데 필요한 디지털-투-아날로그 컨버터, 앰플리파이어 및 스피커를 포함한다.
명료함을 위해 위의 설명은 여러 기능상의 유닛과 프로세서에 관해 본발명의 실시예를 설명함을 이해할 수 있을 것이다. 하지만, 다른 기능상의 유닛 또는 프로세서간의 적당한 기능의 분배가 본 발명으로부터 일부를 감지 않고 사용될 수 있다. 예를 들어, 개별 프로세서 또는 제어기에 의해 수행되는 것으로 묘사되는 기능은 동일한 프로세서 또는 제어기에 의해 수행될 수 있다. 그래서, 구체적인 기능상의 유닛에 대한 참조문헌은 단순히 엄격한 논리적 또는 물리적 구조 또는 조직의 지시보다 설명된 기능을 제공하는 알맞은 수단의 참조문헌처럼 이해될 수 있다.
발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합를 포함하는 알맞은 형태로 구현될 수 있다. 본 발명은 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서에서 구동되는 컴퓨터 소프트웨어로써 선택적으로 적어도 일부분에서 구현될 수 있다. 본 발명의 실시형태의 요소 및 구성성분은 어떠한 알맞은 방법에서든 물리적, 기능적 및 논리적으로 구현될 수 있다. 사실상 기능은 단일 유닛에서, 복수의 유닛에서 또는 다른 기능상의 유닛의 일부분으로써 구현될 수 있다. 이렇듯, 본 발명은 단일 유닛에서 구현될 수 있거나 여러 유닛과 프로세서 사이에서 물리적 또는 기능적으로 분배된다.
비록 본 발명이 어떠한 실시형태와 연관되어 설명되어 있지만, 여기에서 출발한 구체적인 형태에 제한되는 것은 의도되지 않는다. 더욱이, 본 발명의 범위는 단지 동반되는 청구항에 의해 제한된다. 부가적으로, 비록 특징이 특정한 실시형태와 연관되어 서술되어 나타날 수 있지만, 당업자는 설명된 실시형태의 여러 가지 특징이 본 발명에 대응되어 조합될 수 있다는 것을 알 수 있다. 청구항에서, 포함되는 용어는 다른 요소 또는 단계의 존재를 배재하지 않는다.
또한, 비록 개별적으로 리스트화 되어 있어도, 복수의 수단, 요소 또는 방법 단계는 예를 들어 단일 유닛 또는 프로세서에 의해 실행될 수 있다. 부가적으로 비록 개별 특징이 여러 청구항에 포함되어 있을 수 있지만, 이들은 유리하게 결합될 수 있고, 다른 청구항의 포함(Inclusion)이 특징의 조합이 실현가능하거나/고 유익한 것이 아니라는 것을 내포하지 않는다. 또한 청구항의 한 카테고리에서 특색의 포함(Inclusion)은 이 카테고리에 제한됨을 의미하는 것이 아니라 그보다 특징이 다른 청구항 카테고리에도 적절한 경우 동일하게 적용된다는 것을 지시한다. 또한 청구항에서 특징의 순서는 특징이 작동하는 어떠한 구체적인 순서를 내포하지 않고 특히 방법 청구항의 개별적인 단계의 순서는 단계가 이러한 순서로 수행되어야 한다는 것을 의미하지 않는다. 더욱이, 단계는 어떠한 적절한 순서에서도 수행될 수 있다. 또한, 단수의 언급된 대상(Reference)은 복수를 배제하지 않는다. 그래서 언급된 대상 “하나의(a)", "하나의(an)", "제1(first)", "제2(Second)" 등은 복수를 금지하는 것이 아니다. 청구항에 있는 참조 부호는 명확한 실시예로서 단순히 제공되는 것으로 어떠한 방식으로든 청구항 관점의 제한으로 이해되지 않아야 한다.

Claims (16)

  1. 바이노럴 오디오 신호(Binaural Audio Signal)를 생성하는 바이노럴 오디오 신호 생성 장치로서,
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단(401, 403);
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단(411);
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단(409);
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터(415, 417); 및
    상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단(419)을 포함하는, 바이노럴 오디오 신호 생성 장치.
  2. 청구항 1항에 있어서,
    상기 M-채널 오디오 신호를 시간 도메인에서 서브밴드 도메인으로 변환하는 변환 수단(405)을 더 포함하고 상기 전환 수단과 상기 스테레오 필터는 상기 서브밴드 도메인의 각 서브밴드를 개별적으로 처리하도록 설정되는, 바이노럴 오디오 신호 생성 장치.
  3. 삭제
  4. 청구항 2항에 있어서,
    상기 전환 수단(409)은, 각 서브밴드에 대해,
    Figure 112011065740244-pct00110

    와 같은 스테레오 출력 샘플을 생성하도록 설정되고
    Figure 112011065740244-pct00111
    Figure 112011065740244-pct00112
    중 적어도 하나는 상기 서브밴드에서 상기 M-채널 오디오 신호의 오디오 채널 샘플이고 상기 전환수단은 공간 파라메터 데이터와 상기 적어도 하나의 바이노럴 지각 전달 함수 모두에 의해 행렬 계수
    Figure 112011065740244-pct00113
    를 결정하도록 설정되는, 바이노럴 오디오 신호 생성 장치.
  5. 청구항 2항에 있어서,
    상기 계수 수단(419)은
    상기 N-채널 신호에서 여러 음향 소스에 상응하는 복수의 바이노럴 지각 전달 함수에서의 임펄스 응답의 서브밴드 표현을 제공하는 수단;
    상기 서브밴드 표현의 상응하는 계수의 가중된 조합에 의해서 상기 필터 계수를 결정하는 수단; 및
    상기 공간 파라메터 데이터에 의해 상기 가중된 조합에 대해 상기 서브밴드 표현의 가중치를 결정하는 수단을 포함하는, 바이노럴 오디오 신호 생성 장치.
  6. 청구항 1항에 있어서,
    상기 제1 바이노럴 파라메터는 상기 바이노럴 오디오 신호의 채널 사이의 상관성을 지시하는 일관성 파라메터를 포함하는, 바이노럴 오디오 신호 생성 장치.
  7. 청구항 1항에 있어서,
    상기 제1 바이노럴 파라메터가 상기 N-채널 신호의 어떠한 음향 소스의 위치를 나타내는 국지화(Localization) 파라메터와 상기 바이노럴 오디오 신호의 어떠한 음향 성분의 잔향(Reverberation)을 나타내는 잔향 파라메터 중 적어도 하나를 포함하지 않는, 바이노럴 오디오 신호 생성 장치.
  8. 청구항 1항에 있어서,
    상기 계수 수단(419)는 상기 바이노럴 오디오 신호의 국지화 큐(Cue)와 잔향 큐 중 적어도 하나를 반영하는 상기 필터 계수를 결정하기 위해 마련된, 바이노럴 오디오 신호 생성 장치.
  9. 청구항 1항에 있어서,
    상기 오디오 M-채널 오디오 신호는 모노 오디오 신호이고 상기 전환 수단(407, 409)는 상기 모노 오디오 신호로부터 역상관된(Decorrelated) 신호를 생성하고 상기 역상관된 신호와 상기 모노 오디오 신호를 포함하는 스테레오 신호의 샘플에 적용되는 행렬 곱에 의해 상기 제1 스테레오 신호를 생성하기 위해 마련된, 바이노럴 오디오 신호 생성 장치.
  10. 바이노럴 오디오 신호를 생성하는 방법으로서,
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 단계(501);
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 단계(503);
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 단계(505);
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 단계(509); 및
    상기 적어도 하나의 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 단계(507)를 포함하는 바이노럴 오디오 신호를 생성하는 방법.
  11. 바이노럴 오디오 신호를 전송하는 전송기로서,
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단(401, 403);
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단(411);
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단(409);
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터(415, 417);
    상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단(419); 및
    상기 바이노럴 오디오 신호를 전송하기 위한 수단을 포함하는, 바이노럴 오디오 신호를 전송하는 전송기.
  12. 오디오 신호를 전송하기 위한 전송 시스템으로서,
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단(401, 403),
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단(411),
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단(409),
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터(415, 417),
    상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단(419), 과
    상기 바이노럴 오디오 신호를 전송하기 위한 수단을 포함하는 전송기; 그리고
    상기 바이노럴 오디오 신호를 수신하기 위한 수신기를 포함하는 전송 시스템.
  13. 바이노럴 오디오 신호를 기록하기 위한 오디오 기록 장치로서,
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 수단(401, 403);
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 파라메터 데이터 수단(411);
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 전환 수단(409);
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 스테레오 필터(415, 417);
    상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 계수 수단(419); 및
    상기 바이노럴 오디오 신호를 기록하기 위한 수단을 포함하는, 오디오 기록 장치
  14. 바이노럴 오디오 신호를 전송하는 방법으로서,
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 단계;
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 단계;
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 단계;
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 단계;
    상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 단계; 및
    상기 바이노럴 오디오 신호를 전송하는 단계를 포함하는, 바이노럴 오디오 신호를 전송하는 방법.
  15. 바이노럴 오디오 신호를 송수신하는 방법으로서,
    송신기가
    N-채널 오디오 신호의 다운믹스(Downmix)인 M-채널 오디오 신호와 M-채널 오디오 신호를 N-채널 오디오 신호로 업믹싱(Upmixing)하기 위한 공간 파라메터 데이터(Spatial Parameter Data)를 포함하는 오디오 데이터를 수신하는 단계;
    적어도 하나의 바이노럴 지각 전달 함수(Binaural Perceptual Transfer Function)에 응답하여 공간 파라메터 데이터의 공간 파라메터를 제1 바이노럴 파라메터로 전환하는 단계;
    상기 제1 바이노럴 파라메터에 응답하여 상기 M-채널 오디오 신호를 제1 스테레오 신호로 전환하는 단계;
    상기 제1 스테레오 신호를 필터링함으로써 상기 바이노럴 오디오 신호를 생성하는 단계;
    상기 바이노럴 지각 전달 함수에 응답하여 상기 스테레오 필터의 필터 계수를 결정하는 단계; 및
    상기 바이노럴 오디오 신호를 전송하는 단계를 수행하는 단계; 그리고
    수신기가 상기 바이노럴 오디오 신호를 수신하는 단계를 수행하는 단계를 포함하는 바이노럴 오디오 신호를 송수신하는 방법.
  16. 청구항 14 또는 청구항 15의 방법을 수행하는 컴퓨터 프로그램 제품을 저장한 컴퓨터로 판독가능한 매체.
KR1020107007612A 2007-10-09 2008-09-30 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치 KR101146841B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP07118107 2007-10-09
EP07118107.7 2007-10-09
PCT/EP2008/008300 WO2009046909A1 (en) 2007-10-09 2008-09-30 Method and apparatus for generating a binaural audio signal

Publications (2)

Publication Number Publication Date
KR20100063113A KR20100063113A (ko) 2010-06-10
KR101146841B1 true KR101146841B1 (ko) 2012-05-17

Family

ID=40114385

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107007612A KR101146841B1 (ko) 2007-10-09 2008-09-30 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치

Country Status (15)

Country Link
US (1) US8265284B2 (ko)
EP (1) EP2198632B1 (ko)
JP (1) JP5391203B2 (ko)
KR (1) KR101146841B1 (ko)
CN (1) CN101933344B (ko)
AU (1) AU2008309951B8 (ko)
BR (1) BRPI0816618B1 (ko)
CA (1) CA2701360C (ko)
ES (1) ES2461601T3 (ko)
MX (1) MX2010003807A (ko)
MY (1) MY150381A (ko)
PL (1) PL2198632T3 (ko)
RU (1) RU2443075C2 (ko)
TW (1) TWI374675B (ko)
WO (1) WO2009046909A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015152665A1 (ko) * 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US9578437B2 (en) 2013-09-17 2017-02-21 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing audio signals
US9832585B2 (en) 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9832589B2 (en) 2013-12-23 2017-11-28 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
US10347259B2 (en) 2012-09-12 2019-07-09 Fraunhofer_Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for providing enhanced guided downmix capabilities for 3D audio
US12014744B2 (en) 2013-10-22 2024-06-18 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
PL3093843T3 (pl) 2009-09-29 2021-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder sygnału audio MPEG-SAOC, koder sygnału audio MPEG-SAOC, sposób dostarczania reprezentacji sygnału upmixu z wykorzystaniem dekodowania MPEG-SAOC, sposób dostarczania reprezentacji sygnału downmixu z wykorzystaniem dekodowania MPEG-SAOC oraz program komputerowy wykorzystujący wspólną wartość parametru korelacji międzyobiektowej zależną od czasu/częstotliwości
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
WO2012093352A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
CN102802112B (zh) * 2011-05-24 2014-08-13 鸿富锦精密工业(深圳)有限公司 具有音频文件格式转换功能的电子装置
RU2591179C2 (ru) * 2012-03-23 2016-07-10 Долби Лабораторис Лайсэнзин Корпорейшн Способ и система для генерирования передаточной функции головы путем линейного микширования передаточных функций головы
US9491299B2 (en) 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104904239B (zh) * 2013-01-15 2018-06-01 皇家飞利浦有限公司 双耳音频处理
WO2014111829A1 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
US9344826B2 (en) * 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
US10506067B2 (en) * 2013-03-15 2019-12-10 Sonitum Inc. Dynamic personalization of a communication session in heterogeneous environments
US9933990B1 (en) 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
KR20230144652A (ko) 2013-03-28 2023-10-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN108806704B (zh) * 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
KR102150955B1 (ko) * 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
CA2919080C (en) * 2013-07-22 2018-06-05 Sascha Disch Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
JP6212645B2 (ja) 2013-09-12 2017-10-11 ドルビー・インターナショナル・アーベー オーディオ・デコード・システムおよびオーディオ・エンコード・システム
KR102230308B1 (ko) * 2013-09-17 2021-03-19 주식회사 윌러스표준기술연구소 멀티미디어 신호 처리 방법 및 장치
US9769589B2 (en) * 2013-09-27 2017-09-19 Sony Interactive Entertainment Inc. Method of improving externalization of virtual surround sound
BR112016008426B1 (pt) * 2013-10-21 2022-09-27 Dolby International Ab Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US10382880B2 (en) 2014-01-03 2019-08-13 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
CN105874820B (zh) 2014-01-03 2017-12-12 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US9986338B2 (en) 2014-01-10 2018-05-29 Dolby Laboratories Licensing Corporation Reflected sound rendering using downward firing drivers
KR102272099B1 (ko) * 2014-03-19 2021-07-20 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
US9462406B2 (en) 2014-07-17 2016-10-04 Nokia Technologies Oy Method and apparatus for facilitating spatial audio capture with multiple devices
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10181328B2 (en) 2014-10-21 2019-01-15 Oticon A/S Hearing system
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频系统和方法
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
JP2018509864A (ja) 2015-02-12 2018-04-05 ドルビー ラボラトリーズ ライセンシング コーポレイション ヘッドフォン仮想化のための残響生成
CN107258090B (zh) * 2015-02-18 2019-07-19 华为技术有限公司 音频信号处理装置和音频信号滤波方法
KR20230105002A (ko) 2015-08-25 2023-07-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩및 디코딩
ES2818562T3 (es) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
WO2017035163A1 (en) 2015-08-25 2017-03-02 Dolby Laboratories Licensing Corporation Audo decoder and decoding method
GB2544458B (en) 2015-10-08 2019-10-02 Facebook Inc Binaural synthesis
WO2017126895A1 (ko) 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
CN112218229B (zh) * 2016-01-29 2022-04-01 杜比实验室特许公司 用于音频信号处理的系统、方法和计算机可读介质
US11256768B2 (en) 2016-08-01 2022-02-22 Facebook, Inc. Systems and methods to manage media content items
CN106331977B (zh) * 2016-08-22 2018-06-12 北京时代拓灵科技有限公司 一种网络k歌的虚拟现实全景声处理方法
PT3539125T (pt) * 2016-11-08 2023-01-27 Fraunhofer Ges Forschung Aparelho e método para codificar ou descodificar um sinal multicanal utilizando um ganho side e um ganho residual
DE102017106022A1 (de) * 2017-03-21 2018-09-27 Ask Industries Gmbh Verfahren zur Ausgabe eines Audiosignals in einen Innenraum über eine einen linken und einen rechten Ausgabekanal umfassende Ausgabeeinrichtung
KR20200143707A (ko) 2018-04-11 2020-12-24 본지오비 어커스틱스 엘엘씨 오디오 향상 청력 보호 시스템
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
EP3827599A1 (en) 2018-07-23 2021-06-02 Dolby Laboratories Licensing Corporation Rendering binaural audio over multiple near field transducers
WO2020028833A1 (en) * 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
CN109327766B (zh) * 2018-09-25 2021-04-30 Oppo广东移动通信有限公司 3d音效处理方法及相关产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007031896A1 (en) 2005-09-13 2007-03-22 Koninklijke Philips Electronics N.V. Audio coding

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000308199A (ja) 1999-04-16 2000-11-02 Matsushita Electric Ind Co Ltd 信号処理装置および信号処理装置の製造方法
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7447629B2 (en) * 2002-07-12 2008-11-04 Koninklijke Philips Electronics N.V. Audio coding
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US8027477B2 (en) * 2005-09-13 2011-09-27 Srs Labs, Inc. Systems and methods for audio processing
CN1937854A (zh) * 2005-09-22 2007-03-28 三星电子株式会社 用于再现双声道虚拟声音的装置和方法
JP2007187749A (ja) 2006-01-11 2007-07-26 Matsushita Electric Ind Co Ltd マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
ATE456261T1 (de) * 2006-02-21 2010-02-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007031896A1 (en) 2005-09-13 2007-03-22 Koninklijke Philips Electronics N.V. Audio coding

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347259B2 (en) 2012-09-12 2019-07-09 Fraunhofer_Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for providing enhanced guided downmix capabilities for 3D audio
US11096000B2 (en) 2013-09-17 2021-08-17 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US9578437B2 (en) 2013-09-17 2017-02-21 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing audio signals
US9584943B2 (en) 2013-09-17 2017-02-28 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing audio signals
US11622218B2 (en) 2013-09-17 2023-04-04 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US9961469B2 (en) 2013-09-17 2018-05-01 Wilus Institute Of Standards And Technology Inc. Method and device for audio signal processing
US10469969B2 (en) 2013-09-17 2019-11-05 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US10455346B2 (en) 2013-09-17 2019-10-22 Wilus Institute Of Standards And Technology Inc. Method and device for audio signal processing
US11195537B2 (en) 2013-10-22 2021-12-07 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
US10692508B2 (en) 2013-10-22 2020-06-23 Electronics And Telecommunications Research Institute Method for generating filter for audio signal and parameterizing device therefor
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
US12014744B2 (en) 2013-10-22 2024-06-18 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
US10433099B2 (en) 2013-12-23 2019-10-01 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US11109180B2 (en) 2013-12-23 2021-08-31 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US10158965B2 (en) 2013-12-23 2018-12-18 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US11689879B2 (en) 2013-12-23 2023-06-27 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US9832589B2 (en) 2013-12-23 2017-11-28 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US10701511B2 (en) 2013-12-23 2020-06-30 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US11343630B2 (en) 2014-03-19 2022-05-24 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US10070241B2 (en) 2014-03-19 2018-09-04 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US10771910B2 (en) 2014-03-19 2020-09-08 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US10999689B2 (en) 2014-03-19 2021-05-04 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US10321254B2 (en) 2014-03-19 2019-06-11 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9832585B2 (en) 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9986365B2 (en) 2014-04-02 2018-05-29 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US9860668B2 (en) 2014-04-02 2018-01-02 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US9848275B2 (en) 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US10129685B2 (en) 2014-04-02 2018-11-13 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US10469978B2 (en) 2014-04-02 2019-11-05 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
WO2015152665A1 (ko) * 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
WO2015152663A3 (ko) * 2014-04-02 2016-08-25 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
BRPI0816618B1 (pt) 2020-11-10
CN101933344A (zh) 2010-12-29
JP5391203B2 (ja) 2014-01-15
MX2010003807A (es) 2010-07-28
US8265284B2 (en) 2012-09-11
BRPI0816618A2 (pt) 2015-03-10
TW200926876A (en) 2009-06-16
TWI374675B (en) 2012-10-11
CN101933344B (zh) 2013-01-02
EP2198632A1 (en) 2010-06-23
WO2009046909A1 (en) 2009-04-16
RU2010112887A (ru) 2011-11-20
AU2008309951B8 (en) 2011-12-22
EP2198632B1 (en) 2014-03-19
MY150381A (en) 2013-12-31
CA2701360C (en) 2014-04-22
KR20100063113A (ko) 2010-06-10
AU2008309951A1 (en) 2009-04-16
JP2010541510A (ja) 2010-12-24
ES2461601T3 (es) 2014-05-20
CA2701360A1 (en) 2009-04-16
RU2443075C2 (ru) 2012-02-20
PL2198632T3 (pl) 2014-08-29
AU2008309951B2 (en) 2011-09-08
US20100246832A1 (en) 2010-09-30

Similar Documents

Publication Publication Date Title
KR101146841B1 (ko) 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치
US20200335115A1 (en) Audio encoding and decoding
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
JP5106115B2 (ja) オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
CA2593290C (en) Compact side information for parametric coding of spatial audio
JP5520300B2 (ja) マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置
KR20180042397A (ko) 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩
EA034371B1 (ru) Аудиодекодер и способ декодирования
RU2427978C2 (ru) Кодирование и декодирование аудио
KR102195976B1 (ko) 오디오 신호 처리 방법 및 장치
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150427

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170428

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190426

Year of fee payment: 8