KR101294022B1 - 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치 - Google Patents

공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치 Download PDF

Info

Publication number
KR101294022B1
KR101294022B1 KR20070011643A KR20070011643A KR101294022B1 KR 101294022 B1 KR101294022 B1 KR 101294022B1 KR 20070011643 A KR20070011643 A KR 20070011643A KR 20070011643 A KR20070011643 A KR 20070011643A KR 101294022 B1 KR101294022 B1 KR 101294022B1
Authority
KR
South Korea
Prior art keywords
delete delete
audio signal
rendering
signal
spatial cue
Prior art date
Application number
KR20070011643A
Other languages
English (en)
Other versions
KR20070079945A (ko
Inventor
백승권
서정일
이태진
이용주
장대영
강경옥
홍진우
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070079945A publication Critical patent/KR20070079945A/ko
Application granted granted Critical
Publication of KR101294022B1 publication Critical patent/KR101294022B1/ko
Priority to US16/869,902 priority Critical patent/US11375331B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
다객체 또는 다채널 오디오 신호의 랜더링 제어에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치를 제공함.
3. 발명의 해결 방법의 요지
공간큐 기반 다객체 또는 다채널 오디오 신호의 디코딩 과정에서 공간큐 영역에서 랜더링을 제어함.
4. 발명의 중요한 용도
다객체 또는 다채널 오디오 신호의 디코딩에 이용됨.
다채널, 다객체, 디코딩, 공간큐, 랜더링

Description

공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링 제어 방법 및 그 장치{METHOD AND APPARATUS FOR CONTROL OF RANDERING MULTIOBJECT OR MULTICHANNEL AUDIO SIGNAL USING SPATIAL CUE}
도1은 종래의 다객체 또는 다채널 오디오 신호의 인코더에 대한 일실시예를 개략적으로 나타낸 도면,
도2는 본 발명의 일실시예에 따른 오디오 신호 랜더링 제어 장치를 개략적으로 나타낸 도면,
도3은 재생된 패닝 다채널 신호의 일례를 나타내는 도면,
도4은 본 발명의 일실시예로서 CLD를 공간큐로서 이용하는 경우에 도2에 도시된 공간큐 랜더링 수단의 상세 블록도,
도5는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법을 설명하기 위한 도면,
도6은 신호의 각도들간 관계를 포함하는 레이아웃을 개략적으로 나타낸 도면,
도7은 SAC 디코딩 수단이 MPEG Surround stereo mode인 경우에 본 발명의 일실시예에 따른 공간큐 랜더링 수단의 상세 블록도,
도8은 다객체 또는 다채널의 오디오 신호를 디코딩하는 공간큐 기반 디코더 전체를 나타내는 개략도,
도9는 공간큐 기반 디코더로서 특히 3차원 스테레오(3D stereo) 오디오 신호 디코더를 나타내는 개략도,
도10은 도8 및 도9에 적용될 수 있는 공간큐 랜더링 수단의 일실시예를 설명하기 위한 도면,
도11은 바이노럴 스테레오 디코딩 방식이 적용된 MPEG Surround 디코더를 나타내는 개략도,
도12는 본 발명의 다른 실시예에 따른 오디오 신호 랜더링 장치를 개략적으로 나타낸 도면,
도13은 도12의 공간화 수단에 대한 상세 블록도,
도14는 본 발명의 일실시예가 적용된 다채널 오디오 디코더를 나타내는 도면이다.
본 발명은 다객체 또는 다채널 오디오 신호의 랜더링 제어에 관한 것으로, 보다 상세하게는 다객체 또는 다채널의 오디오 신호를 디코딩하는 과정에서 공간큐(spatial cue)를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치에 관한 것이다.
도1은 종래의 다객체 또는 다채널 오디오 신호의 인코더에 대한 일실시예를 개략적으로 나타낸 도면으로서, 도면에 도시된 바와 같이, 종래의 다객체 또는 다채널 오디오 신호의 인코더에 대한 일실시예로서 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식의 인코더(101)는 입력 신호(input signals)인 다객체 또는 다채널 오디오 신호로부터 후술되는 공간큐(spatial cues)를 추출하여 전송하고, 오디오 신호를 다운믹스하여 모노 또는 스테레오 신호로 전송한다.
SAC 기술은 다객체 또는 다채널 오디오 신호를 다운믹스된 모노 또는 스테레오 신호와 공간큐 정보로 표현, 전송 및 복원하는 방법에 관한 것으로 낮은 비트 율에서도 고품질의 멀티채널 신호를 전송할 수 있는 기술이다. SAC 기술의 주요전략은 다객체 또는 다채널 오디오 신호를 서브밴드 별로 분석하여 각 서브밴드 별 공간큐 정보에 기초하여 다운믹스된 신호로부터 원래의 신호를 복원한다는 것이다. 따라서 공간큐 정보는 디코딩 과정에서 원 신호의 복원을 위한 중요한 정보를 포함하며, SAC 디코딩 장치에서 재생되는 오디오 신호의 음질을 좌우하는 주요한 요인이다. SAC 기술을 근간으로 MPEG은 MPEG Surround라는 명칭으로 SAC 기술에 대한 표준화를 진행하고 있으며 CLD(Channel Level Difference)를 공간큐로 활용한다.
본 발명은 인코더로부터 다운믹스되어 전송된 다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 인코더로부터 전송된 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치에 관한 것이다.
종래 기술에 따르면, 모노 또는 스테레오 기반의 오디오 신호의 재생을 위해 주파수 분석기를 이용한 그래픽 이퀄라이저가 주로 활용되었다. 그러나 다객체 또는 다채널 오디오 신호는 당해 오디오 신호의 위치를 공간상에 다양하게 제공할 수 는 있으나 현재 다객체 또는 다채널 오디오 신호에 의해 생성되는 오디오 신호의 위치는 디코딩 장치에서 고유한 것으로 인지되어 재생되는데 그치고 있다.
본 발명의 목적은 다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치를 제공하는 것이다.
상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하는 오디오 신호 랜더링 제어 장치를 제공한다.
또한, 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공 간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는
Figure 112007501297971-pat00001
(ott,l,m)로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 수단은 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱부; 상기 CLD 파싱부에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환부; 및 상기 이득 요소 변환부에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어부를 포함하되, 상기
Figure 112007501297971-pat00002
(ott,l,m)에서 m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스인 오디오 신호 랜더링 제어 장치를 제공한다.
또한 상기 목적을 달성하기 위한 본 발명은, 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 특히, 상기 다운믹스 신호인 L0 및 R0로부터 중앙 신호(C), 좌측 반평면 신호(Lf+Ls) 및 우측 반평면 신호(Rf+Rs)를 추출하며, 상기 공간큐 정보는 CLD LR/Clfe ,CLD L/R ,CLD C/lfe ,CLD Lf/Ls CLD Rf/Rs 로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 수단은 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱부; 상기 CLD 파싱부에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환부; 및 상기 이득 요소 변환부에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어부를 포함하는 오디오 신호 랜더링 제어 장치를 제공한다.
또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호의 다운믹스 비율을 나타내는 CPC(Channel Prediction Coefficient) 및 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 수단은 상기 인코딩 수단으로부터 전송되는 CPC 및 CLD 각각으로부터 CPC 파라미터 및 CLD 파라미터를 추출하는 CPC/CLD 파싱부; 상기 CPC/CLD 파싱부에서 추출된 CPC 파라미터로부터 중앙 신호, 좌측 반평면 신호 및 우측 반평면 신호를 추출하여 각 신호의 파워이득을 산출하며, CLD 파라미터로부터 좌측 신호 성분 및 우측 신호 성분 각각의 파워이득을 추출하는 이득 요소 변환부; 및 상기 이득 요소 변환부에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어부를 포함하는 오디오 신호 랜더링 제어 장치를 제공한다.
또한 상기 목적을 달성하기 위한 본 발명은, 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호간 상관성을 나타내는 ICC(Inter-Channel Correlation)이며, 상기 공간큐 랜더링 수단은 선형 보간(linear interpolation) 과정을 통해 ICC 파라미터를 제어하는 오디오 신호 랜더링 제어 장치를 제공한다.
또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치의 랜더링 제어 방법에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보 를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하는 오디오 신호 랜더링 제어 방법을 제공한다.
또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는
Figure 112007501297971-pat00003
(ott,l,m) 로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 단계는 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱 단계; 상기 CLD 파싱 단계에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환 단계; 및 상기 이득 요소 변환 단계에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어 단계를 포함하되, 상기
Figure 112007501297971-pat00004
(ott,l,m) 에서 m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스인 오디오 신호 랜더링 제어 방법을 제공한다.
또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 특히, 상기 다운믹스 신호인 L0 및 R0로부터 중앙 신호(C), 좌측 반평면 신호(Lf+Ls) 및 우측 반평면 신호(Rf+Rs)를 추출하며, 상기 공간큐 정보는 CLD LR/Clfe ,CLD L/R ,CLD C/lfe ,CLD Lf/Ls CLD Rf/Rs 로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 단계는 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱 단계; 상기 CLD 파싱 단계에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환 단계; 및 상기 이득 요소 변환 단계에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어 단계를 포함하는 오디오 신호 랜더링 제어 방법을 제공한다.
또한 상기 목적을 달성하기 위해 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호의 다운믹스 비율을 나타내는 CPC(Channel Prediction Coefficient) 및 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 단계는 상기 인코딩 수단으로부터 전송되는 CPC 및 CLD 각각으로부터 CPC 파라미터 및 CLD 파라미터를 추출하는 CPC/CLD 파싱 단계; 상기 CPC/CLD 파싱 단계에서 추출된 CPC 파라미터로부터 중앙 신호, 좌측 반평면 신호 및 우측 반평면 신호를 추출하여 각 신호의 파워이득을 산출하며, CLD 파라미터로부터 좌측 신호 성분 및 우측 신호 성분 각각의 파워이득을 추출하는 이득 요소 변환 단계; 및 상기 이득 요소 변환 단계에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어 단계를 포함하는 오디오 신호 랜더링 제어 방법을 제공한다.
또한 상기 목적을 달성하기 위해 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호간 상관성을 나타내는 ICC(Inter-Channel Correlation)이며, 상기 공간큐 랜더링 단계는 선형 보간(linear interpolation) 과정을 통해 ICC 파라미터를 제어하는 오디오 신호 랜더링 제어 방법을 제공한다.
본 발명에 따르면, 사용자 또는 외부 연동 시스템의 요청에 따라 공간큐의 직접적인 제어를 통해 다객체 또는 다채널 오디오 신호의 위치를 유연하게 제어할 수 있다.
본 발명이 속한 기술 분야에서 통상의 지식을 가진 자는 본 명세서의 도면, 발명의 상세한 설명 및 특허청구범위로부터 본 발명의 다른 목적 및 장점을 쉽게 인식할 수 있다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. 또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다. 따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다. 또한 프로세서, 제어가 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다. 유사하게, 도면에 도시된 스위치는 개념적으로만 제시된 것일 수 있다. 이러한 스위치의 작용은 프로 그램 로직 또는 전용 로직을 통해 프로그램 제어 및 전용 로직의 상호 작용을 통하거나 수동으로 수행될 수 있는 것으로 이해되어야 한다. 특정의 기술은 본 명세서의 보다 상세한 이해로서 설계자에 의해 선택될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도2는 본 발명의 일실시예에 따른 오디오 신호 랜더링 제어 장치를 개략적으로 나타낸 도면으로서, 도면에 도시된 바와 같이, 도1의 SAC 인코더(101)에 대응하는, SAC 디코딩 수단(203)을 일실시예로서 채용한 구성이며, 공간큐 랜더링 수단(201)을 더 포함하고 있다.
SAC 디코딩 수단(203)으로 입력되는 신호는 인코더(예를 들어 도1의 인코더)로부터 전송되는 다운믹스 신호(모노 또는 스테레오)이며, 공간큐 랜더링 수단(201)으로 입력되는 신호는 인코더(예를 들어 도1의 인코더)로부터 전송되는 공간큐이다.
공간큐 랜더링 수단(201)은 공간큐 영역에서 랜더링을 제어한다. 즉, SAC 디코딩 수단(203)의 출력신호를 직접적으로 제어하여 랜더링을 수행하는 것이 아니라, 공간큐로부터 오디오 신호에 대한 정보를 추출하고 제어함으로써 랜더링을 제어한다.
여기서, 공간큐 영역이란 인코더로부터 전송된 공간큐가 파라미터로 인식되고 제어되는 파라미터 도메인을 의미한다. 랜더링이란, 입력 오디오 신호가 출력될 위치 및 레벨 등을 결정하여 출력 오디오 신호를 생성하는 과정을 의미한다.
SAC 디코딩 수단(203)으로서 MPEG Surround, BCC(Binaural Cue Coding) 또는 SSLCC(Sound Source Location Cue Coding) 등의 방식이 적용될 수 있으며, 이에 한정되지 않는다.
본 발명의 일실시예로서, 활용 가능한 공간큐에 대한 정의는 다음과 같다.
CLD[Channel(audio signal) Level Difference]: 입력 오디오 신호간 레벨 차
ICC[Inter-Channel Correlation]: 입력 오디오 신호간 상관성
CPC[Channel Prediction Coefficient]: 입력 오디오 신호의 다운믹스 비율
즉, CLD는 오디오 신호의 파워이득 정보, ICC는 오디오 신호간의 상관성 정보, CTD는 오디오 신호간의 시간차 정보, CPC는 오디오 신호의 다운믹스 이득정보 를 나타낸다.
공간큐의 주요한 역할은 공간 화상(spatial image), 즉 사운드 장면(sound scene)을 유지하는 것이다. 따라서, 본 발명에 따르면, 오디오 출력 신호를 직접적으로 조작하는 대신 이들 공간큐 파라미터를 제어함으로써 사운드 장면을 제어할 수 있다.
오디오 신호의 재생환경을 고려할 때, 공간큐 중에서 가장 많이 이용되는 공간큐는 CLD로서, CLD만으로도 기본적인 출력신호를 생성해 낼 수 있다. 따라서 이하에서는 본 발명의 일실시예로서 CLD를 중심으로 하여, 공간큐 영역에서 신호를 제어하는 기술에 대해 설명될 것이나, 본 발명이 CLD에만 한정되지 않으며 다양한 공간큐와 관련한 실시예가 존재할 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백한 것이다. 따라서 본 발명은 CLD에 한정되지 않는 것으로 이해되어야 한다.
CLD를 이용하는 일실시예에서, 파워이득 계수에 직접적으로 사운드 패닝(panning) 법칙을 적용함으로써 다객체 또는 다채널 오디오 신호를 패닝할 수 있다.
본 발명의 일실시예에 따르면, 공간큐를 제어하여 전역 패닝 위치에 따라 다객체 또는 다채널 오디오 신호를 재생할 수 있다. CLD는 주로 바람직한 패닝 위치에 대응하는 각 오디오 신호의 파워이득을 평가하기 위해서 조작된다. 패닝 위치는 외부로부터 입력되는 interaction control 신호를 통해 자유롭게 입력될 수 있다. 도3은 재생된 패닝 다채널 신호의 일례를 도시한다. 주어진 θ pan 에 의해서, 모든 신호들은 각도 θ pan 로 회전된다. 그러면, 사용자는 회전된 사운드 장면들을 인식할 수 있다. 도3에서 Lf는 좌측 전방 채널 신호, Ls는 좌측 후방 채널 신호, Rf는 우측 전방 채널 신호, Rs는 우측 후방 채널 신호, C는 중앙 채널 신호를 나타낸다. 따라서, [Lf+ Ls]는 좌측 반평면 신호, [Rf+Rs]는 우측 반평면 신호를 의미하게 된다. 도3에 도시되지는 않았으나, lfe는 우퍼(woofer) 신호를 나타낸다.
도4는 본 발명의 일실시예로서 CLD를 공간큐로서 이용하는 경우에 도2에 도시된 공간큐 랜더링 수단(201)의 상세 블록도이다.
도면에 도시된 바와 같이, CLD를 공간큐로서 이용하는 공간큐 랜더링 수단(201)은 CLD 파싱부(401), 이득 요소 변환부(403), 이득 요소 제어부(405) 및 CLD 변환부(407)를 포함한다.
CLD 파싱부(401)는 수신한 공간큐(CLD)로부터 CLD 파라미터를 추출한다.
CLD는 오디오 신호의 레벨차 정보를 포함하고 있으며 [수학식 1]과 같이 표현된다.
[수학식 1]
Figure 112007501297971-pat00005
여기서, 예를 들어
Figure 112007501297971-pat00006
는 m번째 서브밴드에서의 k번째 입력 오디오 신호에 대한 서브밴드 파워이다.
이득 요소 변환부(403)는 CLD 파싱부(401)에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출한다.
[수학식 1]을 살펴보면, m번째 서브밴드에서의 입력 오디오 신호가 M개인 경우, m번째 서브밴드에서 추출될 수 있는 CLD의 개수는 M-1개가 된다(즉 1 ≤ i ≤ M-1). 따라서 CLD로부터 각 신호의 파워이득은 다음의 [수학식 2]에 따라 산출된다.
[수학식 2]
Figure 112007501297971-pat00007
그러므로 m번째 서브밴드에 대하여 M-1개의 CLD 값으로부터 M개의 입력 오디오 신호에 대한 파워이득을 산출할 수 있다.
한편, 공간큐는 입력 오디오 신호의 서브밴드 단위로 추출되므로 파워이득도 서브밴드 단위로 추출된다. 따라서 m번째 서브밴드에 포함된 모든 입력 오디오 신호의 파워이득을 추출하면 다음의 [수학식 3]과 같이 벡터행렬로 표현된다.
[수학식 3]
Figure 112007501297971-pat00008
여기서, m은 서브밴드 인덱스,
Figure 112007501297971-pat00009
는 m번째 서브밴드에서의 k(1 ≤ k ≤ M)번째 입력 오디오 신호에 대한 서브밴드 파워이득, G m 은 m번째 서브밴드에서 모든 입력 오디오 신호의 파워이득을 나타내는 벡터이다.
이득 요소 변환부(403)에서 추출된 각 오디오 신호의 파워이득(G m )은 이득 요소 제어부(405)로 입력되어 조절되며, 이러한 조절에 의해 입력 오디오 신호의 랜더링이 제어됨으로써 종국적으로는 원하는 오디오 장면이 구성될 수 있다.
이득 요소 제어부(405)로 입력되는 랜더링 제어정보는 입력 오디오 신호의 개수(N), 가상 위치 및 각 입력 오디오 신호의 레벨(Burst, Suppression 포함)과, 출력 오디오 신호의 개수(M) 및 가상 위치에 관한 정보를 포함한다. 즉 이득 요소 제어부(405)는 입력 오디오 신호의 랜더링에 대한 제어정보(예를 들어, 입력 오디오 신호의 출력 위치, 출력 레벨 등을 나타내는 오디오 장면 정보로서 사용자 등 외부로부터 입력되는 interaction control 신호)를 입력 받아 이득 요소 변환부(403)로부터 출력된 각 입력 오디오 신호의 파워이득( G m )을 조절하여 다음의 [수학식 4]와 같이 제어된 파워이득( out G m )을 산출한다.
[수학식 4]
Figure 112007501297971-pat00010
예를 들어, m번째 서브밴드의 첫번째 출력 오디오 신호(
Figure 112007501297971-pat00011
)에 대한 레벨을 없앨 것(suppression)을 랜더링 제어정보로 입력 받으면, 이득 요소 제어부(405)는 다음의 [수학식 5]와 같이 이득 요소 변환부(403)로부터 출력된 각 오디오 신호의 파워이득(G m )으로부터 제어된 파워이득( out G m )을 산출한다.
[수학식 5]
Figure 112007501297971-pat00012
이를 보다 구체적으로 표현하면 다음의 [수학식 6]과 같다.
[수학식 6]
Figure 112007501297971-pat00013
즉, 행렬에서 m번째 서브밴드의 첫번째 입력 오디오 신호(
Figure 112007501297971-pat00014
)의 요소를 값 0으로 조절함으로써 m번째 서브밴드의 첫번째 출력 오디오 신호(
Figure 112007501297971-pat00015
)의 레벨을 없 앨 수 있다(suppression).
마찬가지로, 특정 출력 오디오 신호의 레벨을 증폭(burst)시킬 수 있음은 물론이다. 결국, 본 발명의 일실시예에 따르면, 출력 오디오 신호의 출력 레벨은 공간큐로부터 얻어진 파워이득 값의 변경을 통해 제어될 수 있다.
또 다른 예로서, m번째 서브밴드의 첫번째 입력 오디오 신호(
Figure 112007501297971-pat00016
)를 m번째 서브밴드의 첫번째 출력 오디오 신호(
Figure 112007501297971-pat00017
)와 m번째 서브밴드의 두번째 출력 오디오 신호(
Figure 112007501297971-pat00018
) 사이에 위치시키고자 하는 랜더링 제어정보(예를 들어, 평면상의 각도 정보로서 θ = 45도)가 이득 요소 제어부(405)로 입력되면, 이득 요소 제어부(405)는 다음의 [수학식 7]과 같이 이득 요소 변환부(403)로부터 출력된 각 오디오 신호의 파워이득(G m )으로부터 제어된 파워이득( out G m )을 산출한다.
[수학식 7]
Figure 112007501297971-pat00019
이를 보다 구체적으로 표현하면 다음의 [수학식 8]과 같다.
[수학식 8]
Figure 112007501297971-pat00020
이처럼 입력 오디오 신호를 출력 오디오 신호 사이에 매핑 시키는 방법의 일반화된 일실시예는 패닝 법칙(panning law)이 적용된 매핑 방법이다. 패닝 법칙(panning law)은 사인 패닝 법칙(Sine Panning law), 탄젠트 패닝 법칙(Tangent Panning law), 일정 파워 패닝 법칙(Constant Power Panning law, CPP law)가 있으며, 어느 방법이든지 패닝 법칙(panning law)을 통해 달성하는 목적은 동일하다.
이하에서는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법에 대해 설명될 것이나, 본 발명이 CPP에만 한정되지 않으며 다양한 패닝 법칙(panning law)과 관련한 실시예가 존재할 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백한 것이다. 따라서 본 발명은 CPP에 한정되지 않는 것으로 이해되어야 한다.
본 발명의 일실시예에 따르면, 모든 다객체 또는 다채널 오디오 신호는 주어진 패닝 각도에 대해 CPP에 따라 패닝된다. 또한, 공간큐를 이용하기 위해서, CPP 법칙이 출력 오디오 신호에 적용되지 않고 CLD 값들로부터 추출된 파워이득에 적용된다. CPP가 적용된 후, 오디오 신호의 제어된 파워이득은 CLD로 변환된 다음, 상기 변환된 CLD가 SAC 디코딩 수단(203)으로 제공됨으로써 패닝된 다객체 또는 다채 널 오디오 신호가 생성된다.
도5는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법을 설명하기 위한 도면으로서, 도면에 도시된 바와 같이, 출력신호1, 2(
Figure 112007501297971-pat00021
,
Figure 112007501297971-pat00022
)의 위치는 각각 0도와 90도다. 따라서 도5에서 애퍼쳐(aperture)는 90도이다.
만일 첫번째 입력 오디오 신호(
Figure 112007501297971-pat00023
)가 출력신호1, 2(
Figure 112007501297971-pat00024
,
Figure 112007501297971-pat00025
)사이의 θ 에 위치되면 α,β 값은 각각 α=cos(θ),β=sin(θ)로 정의된다. CPP 법칙에 따르면, 출력 오디오 신호의 축 상에, 입력 오디오 신호의 위치를 projection시켜서 sine, cosine 함수를 활용하여 α,β 값을 산출하고 제어된 파워이득을 산출하여 오디오 신호의 랜더링을 제어하게 된다. α,β 값에 기초하여 산출되는 제어된 파워이득( out G m )은 다음의 [수학식 9]와 같이 표현된다.
[수학식 9]
Figure 112007501297971-pat00026
여기서, α=cos(θ),β=sin(θ)이다.
이를 보다 구체적으로 표현하면 다음의 [수학식 10]과 같다.
[수학식 10]
Figure 112007501297971-pat00027
α,β 값은 적용하는 패닝 법칙(panning law)에 따라 달라질 수 있다. α,β 값은 임의의 애퍼쳐(aperture)에 부합하도록 입력 오디오 신호의 파워이득을 출력 오디오 신호의 가상 위치에 매핑시킴으로써 산출된다.
본 발명의 일실시예에 따르면 공간큐 영역에서 공간큐(예를 들어 입력 오디오 신호의 파워이득 정보)를 제어하여 입력 오디오 신호가 원하는 위치에 매핑되도록 랜더링을 제어할 수 있다.
이상에서는 입력 오디오 신호의 파워이득과 출력 오디오 신호의 파워이득의 개수가 동일한 경우에 대해 설명되었다. 일반적인 경우로서, 출력 오디오 신호의 파워이득과 입력 오디오 신호의 파워이득의 개수가 서로 다른 경우에 상기 [수학식 6,8,10]의 행렬의 차원은 M×M이 아닌 M×N으로 표현된다.
예를 들어 출력 오디오 신호가 4개(M=4)이고 입력 오디오 신호가 5개(N=5)일 경우, 각 입력 오디오 신호의 위치 정보가 랜더링 제어정보(입력 오디오 신호의 위치 및 출력 오디오 신호의 개수 정보)가 이득 요소 제어부(405)로 입력되면, 이득 요소 제어부(405)는 다음의 [수학식 11]과 같이 이득 요소 변환부(403)로부터 출력된 각 오디오 신호의 파워이득(G m )으로부터 제어된 파워이득( out G m )을 산출한다.
[수학식 11]
Figure 112007501297971-pat00028
[수학식 11]에 의하면 N(=5)개의 입력 오디오 신호는 다음과 같이 M(=4)개의 출력 오디오 신호에 매핑된다. 첫번째 입력 오디오 신호(
Figure 112007501297971-pat00029
)는 α 1,β 1 에 의해 출력 오디오 신호 1, 2(
Figure 112007501297971-pat00030
,
Figure 112007501297971-pat00031
) 사이에 매핑된다. 두번째 입력 오디오 신호(
Figure 112007501297971-pat00032
)는 α 2,β 2 에 의해 출력 오디오 신호 2, 4(
Figure 112007501297971-pat00033
,
Figure 112007501297971-pat00034
) 사이에 매핑된다. 세번째 입력 오디오 신호(
Figure 112007501297971-pat00035
)는 α 3,β 3에 의해 출력 오디오 신호 3, 4(
Figure 112007501297971-pat00036
,
Figure 112007501297971-pat00037
) 사이에 매핑된다. 네번째 입력 오디오 신호(
Figure 112007501297971-pat00038
)는 α 4,β 4 에 의해 출력 오디오 신호 2, 4(
Figure 112007501297971-pat00039
,
Figure 112007501297971-pat00040
) 사이에 매핑된다. 다섯번째 입력 오디오 신호(
Figure 112007501297971-pat00041
)는 α 5,β 5 에 의해 출력 오디오 신호 1, 3(
Figure 112007501297971-pat00042
,
Figure 112007501297971-pat00043
) 사이에 매핑된다.
즉,
Figure 112007501297971-pat00044
(k는 입력 오디오 신호 인덱스, k=1, 2, 3, 4, 5)를 임의의 출력 오디오 신호 사이에 매핑 시키기 위한 α,β 값을 α k ,β k 로 정의하면, N(=5)개의 입력 오디오 신호는 M(=4)개의 출력 오디오 신호에 매핑될 수 있으며 따라서 입력 오디오 신호는 출력 오디오 신호의 개수에 상관없이 원하는 위치에 매핑될 수 있다.
k번째 입력 오디오 신호(
Figure 112007501297971-pat00045
)의 출력 레벨을 값 0으로 하기 위해서는 α k ,β k 를 각각 값 0으로 한다(suppression).
이득 요소 제어부(405)로부터 출력되는 제어된 파워이득( out G m )은 CLD 변환부(407)에서 CLD 값으로 변환된다. CLD 변환부(407)는 다음의 [수학식 12]와 같이 제어된 파워이득( out G m )에 대하여 상용로그를 취하여 CLD 값(converted
Figure 112007501297971-pat00046
)으로 변환한다. 제어된 파워이득( out G m )은 파워이득이므로 20을 승산한다.
[수학식 12]
Figure 112007501297971-pat00047
이때 CLD 변환부(407)에 의해 변환된 CLD 값(converted
Figure 112007501297971-pat00048
)은 제어된 파워이득( out G m )의 요소들의 조합으로부터 얻어지며 비교되는 신호(
Figure 112007501297971-pat00049
,
Figure 112007501297971-pat00050
)는 입력 CLD를 산출하기 위한 신호(
Figure 112007501297971-pat00051
,
Figure 112007501297971-pat00052
)에 대응할 필요는 없다. 단지 제어된 파워이득( out G m )이 표현 가능하도록 M-1개의 조합으로부터 변환된 CLD 값(converted
Figure 112007501297971-pat00053
)이 산출되는 것으로 충분하다.
CLD 변환부(407)에 의해 변환된 신호(converted
Figure 112007501297971-pat00054
)는 SAC 디코딩 수단(203)으로 입력된다.
이하에서는 이상에서 설명된 이득 요소 변환부(403), 이득 요소 제어부 (405), CLD 변환부(407)의 동작이 또 다른 실시예로써 설명된다.
이득 요소 변환부(403)는 CLD 파싱부(401)에 의해 추출된 CLD 파라미터로부터 입력 오디오 신호의 파워이득을 추출하는데, CLD 파라미터는 서브밴드 별로 2개의 입력 신호들의 이득 계수들로 변환된다. 예를 들어, 전송 모드가 5152 모드로 불리는 모노 신호 전송 모드인 경우에 이득 요소 변환부(403)는 다음의 [수학식 13]에 따라 CLD 파라미터
Figure 112007501297971-pat00055
(ott,l,m) 로부터 파워이득(
Figure 112007501297971-pat00056
,
Figure 112007501297971-pat00057
)을 추출한다. 여기서, 5152 모드는 ISO/IEC JTC(International Organization for Standardization/International Electrotechnical Commission Joint Technical Committee)에 의해 2005년 2월에 공개된 국제 표준 MPEG Surround(WD N7136, 23003-1:2006/FDIS)에 상세히 개시되어 있다. 본 명세서에서 5152 모드는 본 발명을 설명하기 위한 일실시예에 불과한 바, 그 상세한 설명은 생략하며, 본 발명의 설명에 도움이 되는 범위에서 상기 국제 표준은 본 명세서의 일부를 구성한다.
[수학식 13]
Figure 112007501297971-pat00058
여기서, m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스이다. Clfe, LR 등의 윗첨자는 각각 중앙 신호와 우퍼(woofer, lfe) 신호의 합, 좌측 평면상의 신호(Ls+Lf)와 우측 평면상의 신호(Rs+Rf)의 합을 의미한다.
본 일실시예에 따르면, 상기 [수학식 13]에 의해 모든 입력 오디오 신호의 파워이득이 산출될 수 있다.
다음으로, 각 서브밴드 파워이득(pG)은 다음의 [수학식 14]에 의해 입력 오디오 신호의 파워이득의 승산으로부터 산출된다.
[수학식 14]
Figure 112007501297971-pat00059
다음으로, 이득 요소 변환부(403)에서 추출된 각 오디오 신호의 채널이득(pG)은 이득 요소 제어부(405)로 입력되어 조절되며, 이러한 조절에 의해 입력 오디오 신호의 랜더링이 제어됨으로써 종국적으로는 원하는 오디오 장면이 구성될 수 있다.
그 일실시예로서, CPP 법칙이 인접 채널이득의 쌍에 적용된다. 먼저, θ m 는 입력 오디오 신호의 랜더링에 대한 제어정보로서 주어진 θ pan 으로부터 다음의 [수학식 15]에 따라 산출된다.
[수학식 15]
Figure 112007501297971-pat00060
여기서, 애퍼처는 2개 출력 신호 사이의 각도이며 또한 θ 1 (= 0도)는 기준 출력 신호 위치의 각도이다. 예를 들어, 도6은 상기 각도들간의 관계를 포함하는 스테레오 레이아웃을 개략적으로 나타낸 도면이다.
따라서, 입력 오디오 신호의 랜더링에 대한 제어정보(θ pan )에 의한 패닝 이득은 다음의 [수학식 16]과 같이 정의된다.
[수학식 16]
pG c 1 = cos(θ m )
pG c 2 = sin(θ m )
물론, 애퍼처 각도는 출력 신호 사이의 각도에 따라 변화한다. 애퍼처 각도는 출력 신호가 전면 쌍(C 및 Lf, C 및 Rf)의 경우에 30도, 측면 쌍(Lf 및 Ls, Rf 및 Rs)의 경우 80도, 후면 쌍(Ls 및 Rs)의 경우에 140도다. 각 서브밴드 내의 모든 입력 오디오 신호에 대하여, 상기 패닝 각도에 따라 CPP 법칙에 의해서 제어된 파워이득(예를 들어 [수학식 4]의 out G m )이 산출된다.
이득 요소 제어부(405)로부터 출력되는 제어된 파워이득은 CLD 변환부(407)에 의해 CLD 값으로 변환된다. CLD 변환부(407)는 다음의 [수학식 17]과 같이 제어 된 파워이득에 대하여 상용로그를 취하여 CLD 값(converted
Figure 112007501297971-pat00061
에 대응하는
Figure 112007501297971-pat00062
)으로 변환한다. 이러한 CLD 값은 SAC 디코딩 수단(203)으로 입력된다.
[수학식 17]
Figure 112007501297971-pat00063
이하에서는 본 발명의 보다 구체적인 일실시예로서, SAC 디코딩 수단(203)이 MPEG Surround stereo mode(525 모드로 불리며, 입력 오디오 신호로서 좌측 신호인 L0와 우측 신호인 R0를 수신하여 출력 오디오 신호로서 다채널 신호를 출력함)인 경우에 공간큐로서 CLD, CPC 및 ICC가 이용되는 경우의 구성에 대해 설명된다. MPEG Surround stereo mode는 ISO/IEC JTC에 의해 2005년 2월에 공개된 국제 표준 MPEG Surround(WD N7136, 23003-1:2006/FDIS)에 상세히 개시되어 있다. 본 명세서에서 MPEG Surround stereo mode는 본 발명을 설명하기 위한 일실시예에 불과한 바 , 그 상세한 설명은 생략하며, 본 발명의 설명에 도움이 되는 범위에서 상기 국제 표준은 본 명세서의 일부를 구성한다.
SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우, SAC 디코딩 수단(203)이 입력 오디오 신호 L0와 R0로부터 다채널을 생성하기 위해 필요한 벡터의 대각행렬요소가 다음의 [수학식 18]에서 나타난 바와 같이 0으로 고정되어 있으며, 이는 MPEG Surround stereo mode에서 Lf, Ls 신호의 생성에 R0신호가 기여하지 못하고, Rf, Rs 신호의 생성에 L0신호가 기여하지 못한다는 것을 의미한다. 따라서 입력 오디오 신호의 랜더링에 대한 제어정보에 따라 오디오 신호의 랜더링이 불가능하다.
[수학식 18]
Figure 112007501297971-pat00064
여기서
Figure 112007501297971-pat00065
(i, j는 벡터 행렬 인덱스, m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스)는 CLD로부터 산출되는 파워이득으로부터 생성되는 계수이다. MPEG Surround stereo mode에 대한 CLD로서 CLD LR/Clfe ,CLD L/R ,CLD C/lfe ,CLD Lf/Ls CLD Rf/Rs 가 있으며, CLD Lf/Ls 는 좌측 후방 채널 신호(Ls)와 좌측 전방 채널 신호(Lf)간 서브밴드 파워비(dB), CLD Rf/Rs 는 우측 후방 채널 신호(Rs)와 우측 전방 채널 신호(Rf)간 파워비(dB)이다. 나머지 다른 CLD 값도 아래 첨자로부터 어떤 채널 신호간 파워비인지 알 수 있다.
MPEG Surround stereo mode의 SAC 디코딩 수단(203)에서, [수학식 18]에 의해 입력된 좌우측 신호(L0, R0)로부터 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)가 추출된다. 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs) 각각은 다시 좌측 신호 성분(Ls,Lf)과 우측 신호 성분(Rf,Rs)이 생성되는데 이용된다.
[수학식 18]로부터, 좌측 반평면 신호(Ls+Lf)는 입력된 좌측 신호(L0)로부터 생성될 수 있다는 것을 알 수 있다. 즉, 우측 반평면 신호(Rf+Rs)와 중앙 신호(C)는 좌측 신호 성분(Ls, Lf)의 생성에 기여되지 않는다. 반대의 경우로 마찬가지 이다(Lf, Ls 신호의 생성에 R0 신호가 기여되지 못하며, 마찬가지로, Rf, Rs 신호의 생성에 L0 신호가 기여되지 못한다는 의미). 이는 오디오 신호의 랜더링에 있어서 패닝 각도가 약 ±30도의 범위로 제한된다는 것을 의미한다.
따라서, 본 발명의 일실시예에 따라 입력 오디오 신호에 대하여 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 유연하게 제어하기 위해 [수학식 18]은 다음의 [수학식 19]로 수정된다.
[수학식 19]
Figure 112007501297971-pat00066
여기서, m tttLow Pr oc 은 서브밴드의 개수를 의미한다.
[수학식 19]에 따르면, [수학식 18]의 경우와 달리, 예를 들어 우측 반평면 신호(Rf+Rs)와 중앙 신호(C)가 좌측 신호 성분(Ls, Lf)의 생성에 기여되며, 반대의 경우로 마찬가지 이다(Lf, Ls 신호의 생성에 R0 신호가 기여되며, 마찬가지로, Rf, Rs 신호의 생성에 L0 신호가 기여된다는 의미). 이는 오디오 신호의 랜더링에 있어서 패닝 각도가 제한되지 않는다는 것을 의미한다.
도2 및 도4의 공간큐 랜더링 수단(201)은 입력 오디오 신호의 파워이득 및 입력 오디오 신호의 랜더링에 대한 제어정보(외부로부터 입력되는 interaction control 신호)에 기초하여 [수학식 19]의 벡터를 구성하는 계수(
Figure 112007501297971-pat00067
)를 산출되도록 하는, 제어된 파워이득( out G m ) 또는 예를 들어 변환된 CLD 값(converted
Figure 112007501297971-pat00068
)을 출력한다.
Figure 112007501297971-pat00069
,
Figure 112007501297971-pat00070
,
Figure 112007501297971-pat00071
Figure 112007501297971-pat00072
는 각각 다음의 [수학식 20]과 같이 정의된다.
[수학식 20]
Figure 112007501297971-pat00073
Figure 112007501297971-pat00074
Figure 112007501297971-pat00075
Figure 112007501297971-pat00076
의 역할은 중앙 신호 성분(C)을 추출하는 것이 아니라 반평면 신호들을 패닝 각도만큼 반대편 반평면으로 투사하는 것이다.
Figure 112007501297971-pat00077
Figure 112007501297971-pat00078
은 각각 다음의 [수학식 21]과 같이 정의된다.
[수학식 21]
Figure 112007501297971-pat00079
여기서, 파워이득(P C ,P Lf ,P Ls ,P Rf ,P Rs )은 이득 요소 변환부(403)에 의해, 예를 들어 [수학식 2]에 따라, CLD 파싱부(401)로부터 입력되는 CLD(CLD LR/Clfe ,CLD L/R ,CLD C/lfe ,CLD Lf/Ls CLD Rf/Rs )로부터 산출된다.
Figure 112007501297971-pat00080
P C ,P Lf ,P Ls 의 조합에 비례하는 패닝 법칙에 의한 투영 파워(projected power)이다. 같은 방법으로,
Figure 112007501297971-pat00081
P C ,P Rf ,P Rs 의 조합에 비례한다.
Figure 112007501297971-pat00082
Figure 112007501297971-pat00083
은 각각 좌측 반평면과 우측 반평면의 중앙 채널에 대한 패닝 파워 이득이 다.
[수학식 19] 내지 [수학식 21]은 입력 오디오 신호로서 좌측 신호인 L0와 우측 신호인 R0를 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 유연하게 랜더링 제어할 수 있도록 하는 것을 목적으로 한다. 이득 요소 제어부(405)는 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호, 예를 들어 각도 정보 θ pan = 40도)를 입력 받아 이득 요소 변환부(403)로부터 출력된 각 입력 오디오 신호의 파워이득(P C ,P Lf ,P Ls ,P Rf ,P Rs )을 조절하여 다음의 [수학식 22]와 같이 추가적인 파워이득(
Figure 112007501297971-pat00084
,
Figure 112007501297971-pat00085
,
Figure 112007501297971-pat00086
Figure 112007501297971-pat00087
)을 산출한다.
[수학식 22]
Figure 112007501297971-pat00088
여기서, α=cos(θ pan ),β=sin(θ pan )이고, θ m 은 [수학식 15]에서 정의된 바와 같다.
이렇게 산출된 파워이득(P C ,P Lf ,P Ls ,P Rf ,P Rs ,
Figure 112007501297971-pat00089
,
Figure 112007501297971-pat00090
,
Figure 112007501297971-pat00091
, 및
Figure 112007501297971-pat00092
)은 다음의 [수학식 23]과 같이 제어된 파워이득으로 산출된다.
[수학식 23]
Figure 112007501297971-pat00093
여기서 중앙 신호(C)에 대해서 CL과 CR로 나누어 계산하는 것은 L0, R0 각각으로부터 중앙 신호가 산출되어야 하기 때문이다. MPEG Surround stereo mode의 경우에 이득 요소 제어부(405)는 [수학식 23]의 제어된 파워이득을 출력하며, SAC 디코딩 수단(203)에서는 [수학식 19]의 벡터를 통해 입력 오디오 신호 L0 및 R0에 적용됨으로써 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따른 랜더링이 수행된다.
다만, SAC 디코딩 수단(203)에서 [수학식 19]의 벡터를 통해 입력 오디오 신호 L0 및 R0의 랜더링 제어가 수행되기 위해서는 [수학식 20]으로 표현되는 행렬 요소에 의해 [수학식 19]의 벡터가 산출되도록 L0 및 R0가 프리 믹싱(pre-mixing) 또는 프리 프로세싱(pre-processing) 처리되어야 한다. 상기 프리 믹싱(pre-mixing) 또는 프리 프로세싱(pre-processing)이 수행되어야 제어된 파워이득( out G m ) 또는 예를 들어 변환된 CLD 값(converted
Figure 112007501297971-pat00094
)를 통해 랜더링 제어가 가능하다.
한편, 도7은 SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우에 본 발명의 일실시예에 따른 공간큐 랜더링 수단(201)의 상세 블록도이다. 도면에 도시된 바와 같이, CLD 및 CPC를 공간큐로서 이용하는 공간큐 랜더링 수단(201)은 CPC/CLD 파싱부(701), 이득 요소 변환부(703), 이득 요소 제어부(705) 및 CLD 변환부(707)를 포함한다.
SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우에 공간큐로서 CPC와 CLD가 이용되는 경우, CPC는 다운믹스(down-mix) 신호들과 재생 출력 신호의 품질을 보장하기 위해 인코더에 포함된 몇 가지 적절한 기준에 의해 추정된다. 결과적으로, CPC는 함축적인 이득율(gain ratio)로서 나타나며 본 발명에 따른 오디오 신호 랜더링 장치로 전송된다.
결과적으로 기준에 대한 정보 부족 때문에, CPC 파라미터에 대한 정확한 분석이 공간큐 랜더링 수단(201)에서 달성될 수 없다. 즉, 비록 공간큐 랜더링 수단(201)에서 오디오 신호의 파워 이득이 제어될 수 있다고 하여도 오디오 신호의 파워이득이 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 예를 들어 패닝 법칙에 의해 변경된(제어된) 이후에는 당해 변경된(제어된) 오디오 신호의 파워이득으로부터 CPC 값이 산출될 수 없다.
본 발명의 일실시예에 따르면, 입력 오디오 신호 L0와 R0로부터 CPC를 통해 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)가 추출되고, CLD를 통해 나머지 오디오 신호 즉 좌측 신호 성분(Ls, Lf)과 우측 신호 성분(Rf, Rs)이 추출되며, 이렇게 추출된 오디오 신호의 파워이득이 산출된 후, 상기 산출된 파워이득이 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 변경(제어)되도록 함으로써, 오디오 출력 신호를 직접적으로 조작하는 대신 공간큐 파라미터를 제어함으로써 사운드 장면을 제어할 수 있다.
먼저, CPC/CLD 파싱부(701)는 수신한 공간큐(CPC 및 CLD)로부터 CPC 및 CLD 파라미터를 추출하고, 이득 요소 변환부(703)는 CPC/CLD 파싱부(701)에서 추출된 CPC 파라미터로부터 다음의 [수학식 24]에 따라 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)를 추출한다.
[수학식 24]
Figure 112007501297971-pat00095
여기서, l 0,r 0,l,r,c 는 각각 입력 오디오 신호 L0 및 R0, 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs) 및 중앙 신호(C)를 나타내며, M PDC 는 CPC 계수 벡터이다.
다음으로 이득 요소 변환부(703)는 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)의 파워이득을 산출하고, CPC/CLD 파싱부(701)에서 추출된 CLD 파라미터( CLD Lf/Ls ,CLD Rf/Rs )로부터 예를 들어 [수학식 2]에 따라 나머지 오디오 신호 즉 좌측 신호 성분(Ls, Lf)과 우측 신호 성분(Rf, Rs) 각각의 파워이 득을 산출한다. 이로써 각 서브밴드의 파워이득이 모두 산출된다.
다음으로 이득 요소 제어부(705)는 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)를 입력 받아 이득 요소 변환부(703)에 의해 산출된 각 서브밴드의 파워이득을 조절하여 예를 들어 [수학식 4]와 같이 제어된 파워이득을 산출한다.
이렇게 제어된 파워이득은 SAC 디코딩 수단(203)에서 [수학식 19]의 벡터를 통해 입력 오디오 신호 L0 및 R0에 적용됨으로써 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따른 랜더링이 수행된다.
한편, SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우에 공간큐로서 ICC가 이용되는 경우, 공간큐 랜더링 수단(201)에서는 선형 보간(linear interpolation) 과정을 통해 다음의 [수학식 25]와 같이 ICC 파라미터가 수정된다.
[수학식 25]
Figure 112007501297971-pat00096
여기서, θ pan 은 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)로서 입력된 각도 정보이다.
즉, 좌측과 우측의 ICC 값을 선형적으로 회전 각도( θpan )에 따라 선형 보 간(linear interpolation) 된다. 이에 관한 개략적인 도면이 도10에 도시되어 있다.
한편, 종래의 SAC 디코딩 수단은 공간큐로서 예를 들어 CLD를 입력 받아 파워이득으로 변환하고 이러한 파워이득에 기초하여 입력 오디오 신호를 디코딩 한다.
여기서 종래 SAC 디코딩 수단으로 입력되는 CLD는 본 발명의 일실시예에서 CLD 변환부(407)에 의해 변환된 신호(converted
Figure 112007501297971-pat00097
)에 대응하고, 종래 SAC 디코딩 수단이 변환하는 파워이득은 본 발명의 일실시예에서 이득 요소 제어부(405)에 의해 산출된 파워이득(
Figure 112007501297971-pat00098
)에 대응한다.
본 발명의 다른 일실시예에 따르면, SAC 디코딩 수단(203)은 예를 들어 공간큐로서 CLD 변환부(407)에 의해 변환된 신호(converted
Figure 112007501297971-pat00099
)를 이용하지 않고 이득 요소 제어부(405)에 의해 산출된 파워이득(
Figure 112007501297971-pat00100
)을 이용할 수 있으며, 따라서 SAC 디코딩 수단(203)에서 공간큐(converted
Figure 112007501297971-pat00101
)가 파워이득(
Figure 112007501297971-pat00102
)으로 변환되는 과정이 생략될 수 있다. 이 경우, SAC 디코딩 수단(203)은 CLD 변환부(407)에 의해 변환된 신호(converted
Figure 112007501297971-pat00103
)가 불필요하기 때문에 공간큐 랜더링 수단(201)은 CLD 변환부(407)를 포함하지 않도록 구성될 수 있다.
한편, 본 명세서의 도면에 도시된 블럭들의 기능은 하나의 유닛으로 결합될 수 있다. 예를 들어, 공간큐 랜더링 수단(201)은 SAC 디코딩 수단(203)에 포함되도 록 구성될 수 있다. 이러한 구성 요소의 모든 결합은 본 발명의 범주에 포함된다. 도면에 도시된 블럭은 명확화를 위해 각각 분리되어 도시되었으나 반드시 별개의 유닛으로 구성되어야 하는 것을 의미하는 것은 아니다.
도8 및 도9은 도2의 오디오 신호 랜더링 제어 장치가 적용될 수 있는 일실시예로서 다객체 또는 다채널의 오디오 신호를 디코딩하는 디코더를 나타내는 도면이다. 도8은 다객체 또는 다채널의 오디오 신호를 디코딩하는 공간큐 기반 디코더 전체를 나타내는 개략도, 도9는 공간큐 기반 디코더로서 특히 3차원 스테레오(3D stereo) 오디오 신호 디코더를 나타내는 개략도이다.
도8 및 도9의 SAC 디코더(803, 903)에는 공간큐를 이용한 오디오 복호화기방식으로 MPEG Surround, BCC(Binaural Cue Coding) 또는 SSLCC(Sound Source Location Cue Coding) 등의 방식이 적용될 수 있다. 도8 및 도9에서 Panning Tool(801, 901)은 도2의 공간큐 랜더링 수단(201)에 대응한다.
도10은 도2에 도시된 공간큐 랜더링 수단(201)의 일실시예로서 도8 및 도9에 적용될 수 있는 공간큐 랜더링 수단의 일실시예를 설명하기 위한 도면이다.
도10은 도4의 공간큐 랜더링 수단에 대응한다. 도10은 CPC, ICC 등 다른 공간큐도 고려된 랜더링 수단이고, 도4는 일실시예로서 CLD가 고려된 랜더링 수단이다. 다만, 예시의 편의상 파싱부 및 CLD 변환부의 도시는 생략되어 있으며, 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호) 및 이득 요소 제어부는 각각 Control parameter 및 Gain panning으로 표현되어 있다. 도면에서 이득요소 제어부의 출력인
Figure 112007501297971-pat00104
은 제어된 파워이득을 나타내며 SAC 디코딩 수단(203)의 입력이 될 수 있다. 앞서 설명된 바와 같이, 본 발명에 따르면 디코더로 입력되는 공간큐(예를 들어 CLD)에 기반하여 입력 오디오 신호의 랜더링을 제어할 수 있으며 이에 대한 일실시예 도면은 도10과 같다.
예를 들어, 도10에 도시된 공간큐 랜더링 수단의 일실시예에 따르면 다객체 또는 다채널 오디오 신호의 출력신호 레벨을 없앨 수 있다(suppression). 예를 들어 CLD가 m번째 서브밴드에서 j번째 입력 오디오 신호와 k번째 입력 오디오 신호의 파워비를 나타내는 정보라면 j번째 입력 오디오 신호의 파워이득(
Figure 112007501297971-pat00105
)과 k번째 입력오디오 신호의 파워이득(
Figure 112007501297971-pat00106
)은 상기 [수학식 2]에 의해 산출된다.
이때, k번째 입력 오디오 신호의 레벨을 없애고자 한다면, 상기 [수학식 6]에 따라 k번째 입력 오디오 신호의 파워이득(
Figure 112007501297971-pat00107
) 요소만 값 0으로 조절한다.
다시 도8, 9으로 돌아와, 본 발명의 일실시예에 따르면, 다객체 또는 다채널 오디오 신호는 Panning Rendering Tool(805, 905)에 입력되어 Panning Tool(801, 901)에 의해 공간큐 영역에서 제어된 입력 오디오 신호의 랜더링 정보에 기초하여 Panning 방식에 따라 랜더링된다. 이 경우, Panning Rendering Tool(805, 905)로 입력된 입력 오디오 신호는 주파수 영역(복소수 영역)에서 처리되기 때문에 서브밴드 단위의 랜더링도 가능하다.
Panning Rendering Tool(805, 905)로부터 출력된 신호는 HRTF Rendering Tool(807, 907)에 의해 HRTF 방식으로 랜더링될 수 있다. HRTF 방식의 랜더링은 각 객체별 또는 각 채널별로 HRTF 필터를 적용하는 방식이다.
Panning Rendering Tool(805, 905)의 Panning 방식 및 HRTF Rendering Tool(807, 907)의 HRTF 방식을 이용한 랜더링 과정은 선택적으로 수행될 수 있다. 즉, Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)은 선택적 요소이다. 그러나 Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)이 모두 채용될 경우에는 Panning Rendering Tool(805, 905)이 HRTF Rendering Tool(807, 907)에 선행된다.
앞서 설명된 바와 같이, Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)은 입력 오디오 신호의 랜더링을 수행하는 과정에서 예를 들어 Panning Tool(801, 901)의 CLD 변환부(407)에 의해 변환된 신호(converted
Figure 112007501297971-pat00108
)를 이용하지 않고 이득 요소 제어부(405)에 의해 산출된 파워이득(
Figure 112007501297971-pat00109
)을 이용할 수 있으며, 이 경우 HRTF Rendering Tool(807, 907)은 각 객체 또는 채널의 입력 오디오 신호에 대한 파워를 이용하여 HRTF 계수를 조절할 수 있다. 이 경우 Panning Tool(801, 901)은 CLD 변환부(407)를 포함하지 않도록 구성될 수 있다.
Down-mixer(809)는 출력 오디오 신호의 개수가 디코딩되는 다객체 또는 다채널 오디오 신호의 개수보다 다운믹싱을 수행한다.
Inverse T/F(811)는 역 T/F변환을 수행함으로써, 랜더링된 주파수 영역의 다객체 또는 다채널 오디오 신호를 시간영역의 신호로 변환한다.
도9에 도시된 공간큐 기반 디코더로서 특히 3차원 스테레오(3D stereo) 오디 오 신호 디코더도 Panning Rendering Tool(905) 및 HRTF Rendering Tool(907)을 포함한다. 다만, HRTF Rendering Tool(907)은 스테레오 출력을 위하여 MPEG Surround의 binaural decoding 방식에 따른다. 즉 파라미터 기반(parameter based)의 HRTF filtering이 적용된다.
도8, 9의 Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)은 공지된 요소로서 그 구체적인 설명은 생략한다.
binaural decoding 방식은 입력 오디오 신호를 입력받아 바이노럴 스테레오 신호(3D 스테레오 신호)로 출력하는 디코딩 방식으로서, 일반적으로 HRTF filtering이 적용된다.
SAC 다채널 디코더를 통해 바이노럴 스테레오(3D 스테레오)가 재생되는 경우에도 본 발명이 적용될 수 있다. 일반적으로 5.1 채널에 상응하는 바이노럴 스테레오 신호는 다음의 [수학식 26]에 따라 생성된다.
[수학식 26]
xBinaural_L(t) = xLf(t)*h-30,L(t)+xRf_L(t)*h30,L(t)+xLs_L(t)*h-110,L(t)+xRs_L(t)*h110,L(t)+xC_L(t)*h0,L(t)
xBinaural_R(t) = xLf(t)*h-30,R(t)+xRf_L(t)*h30,R(t)+xLs_L(t)*h-110,R(t)+xRs_L(t)*h110,R(t)+xC_L(t)*h0,R(t)
여기서 x 는 입력 오디오 신호, h 는 HRTF 함수, xBinaural 는 출력 오디오 신 호(바이노럴 스테레오 신호, 3D 스테레오 신호)이다.
즉, 각 입력 오디오 신호에 대하여 HRTF 함수가 복적분되어 다운믹스된 결과가 바이노럴 스테레오 신호가 된다.
종래에는, 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 바이노럴 스테레오 신호의 랜더링이 제어되기 위해서는 각 입력 오디오 신호에 적용되는 HRTF 함수 각각이 제어위치의 함수로 변환하여 적용하여야 한다. 예를 들어 Lf의 가상위치를 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)가 40도인 경우,[수학식 26]은 다음의 [수학식 27]로 변환되어야 한다.
[수학식 27]
xBinaural_L(t) = xLf(t)*h40,L(t)+xRf_L(t)*h30,L(t)+xLs_L(t)*h-110,L(t)+xRs_L(t)*h110,L(t)+xC_L(t)*h0,L(t)
xBinaural_R(t) = xLf(t)*h40,R(t)+xRf_L(t)*h30,R(t)+xLs_L(t)*h-110,R(t)+xRs_L(t)*h110,R(t)+xC_L(t)*h0,R(t)
그러나, 본 발명의 일실시예에 따르면, 바이노럴 스테레오의 랜더링을 제어하는 과정에서 [수학식 27]과 달리 HRTF 함수를 제어하는 것이 아니라 출력 오디오 신호에 대하여 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 공간큐 파라미터를 제어함으로써 사운드 장면을 제어한 다음 [수학식 26]의 일정한 HRTF 함수만을 적용함으로써 바이노럴 신호의 랜더링을 제어할 수 있 다.
즉 공간큐 랜더링 수단(201)에 의해 공간큐 영역에서 제어된 공간큐에 따라 출력 오디오 신호를 랜더링 제어하게 되면 [수학식 27]와 같이 HRTF 함수를 제어할 필요 없이 항상 [수학식 26]이 적용될 수 있다.
결국, 출력 오디오 신호의 랜더링 제어는 공간큐 랜더링 수단(201)에 의해 입력오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 공간큐 영역에서 제어되고, HRTF 함수는 항상 일정한 동일하게 적용될 수 있다.
본 발명의 일실시예에 따르면 한정된 HRTF 함수만으로도 바이노럴 스테레오 신호에 대하여 랜더링 제어가 가능한 반면, 종래의 바이노럴 디코딩 방식에 따르면 바이노럴 스테레오 신호의 랜더링을 제어하기 위해 가능한 많은 HRTF 함수를 확보하고 있어야 한다.
도11은 바이노럴 스테레오 디코딩 방식이 적용된 MPEG Surround 디코더를 나타내는 개략도로서, 도9와 개념적으로 동일한 구성을 나타내는 도면이다. 여기서 Spatial Cue Rendering 블록은 공간큐 랜더링 수단(201)으로서, 제어된 파워이득을 출력한다. 나머지 구성은 도9와 개념적으로 동일한 구성을 나타내며 바이노럴 스테레오 디코딩 방식이 적용된 MPEG Surround 디코더의 구성을 나타내고 있다. Spatial Cue Rendering 블록의 출력은 MPEG Surround 디코더의 Parameter conversion 블럭에서 HRTF 함수들의 주파수 응답특성이 조절되는데 이용된다.
도12 내지 도14는 본 발명의 다른 실시예를 나타낸 도면으로서, 도12는 본 발명의 다른 실시예에 따른 오디오 신호 랜더링 장치를 개략적으로 나타낸 도면이 다. 본 발명의 다른 실시예에 따르면, 공간큐 제어만으로 다채널 오디오 신호를 효율적으로 제어할 수 있으며, 양방향(interactive) 3차원 오디오/비디오 서비스 등에 유용하게 활용될 수 있다.
도면에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 오디오 신호 랜더링 장치는 도1의 SAC 인코더(101)에 대응하는, SAC 디코딩 수단(1205)을 일실시예로서 채용한 구성이며, 부가정보 복호화부(1201) 및 공간화 수단(1203)을 더 포함하고 있다.
부가정보 복호화부(1201) 및 공간화 수단(1203)은 도2의 공간큐 랜더링 수단(201)에 대응하는 구성으로서, 특히, 부가정보 복호화부(1201)는 도4의 CLD 파싱부(401)에 대응한다.
부가정보 복호화부(1201)는 전송된 부가정보, 즉 공간큐로서 예를 들어 CLD를 수신하여 상기 [수학식 1]에 따라 CLD 파라미터를 추출한다.
추출된 CLD 파라미터는 공간화 수단(1203)으로 입력된다.
도13은 도12의 공간화 수단(1203)에 대한 상세 블록도로서, 도면에 도시된 바와 같이, 공간화 수단(1203)은 가상 위치 추정부(1301) 및 CLD 변환부(1303)을 포함한다.
가상 위치 추정부(1301) 및 CLD 변환부(1303)은 기능적으로 도4의 이득 요소 변환부(403), 이득 요소 제어부(405) 및 CLD 변환부(407)에 대응한다.
가상 위치 추정부(1301)는, 입력된 CLD 파라미터로부터 각 입력 오디오 신호의 파워이득을 산출한다. 파워이득은 CLD 산출 방식에 따라 다양한 방법으로 산출 될 수 있다. 예를 들어 입력 오디오 신호의 모든 CLD가 기준 오디오 신호로부터 산출된다면, 다음의 [수학식 28]과 같이 각 입력 오디오 신호의 파워이득이 산출될 수 있다.
[수학식 28]
Figure 112007501297971-pat00110
여기서 C는 전체 오디오 신호 개수, i는 오디오 신호 인덱스(1≤i≤C-1), b는 서브밴드 인덱스, Gi,b 는 입력 오디오 신호(좌측 전방 채널 신호 Lf, 좌측 후방 채널 신호Ls, 우측 전방 채널 신호 Rf, 우측 후방 채널 신호 Rs, 중앙 채널 신호 C)의 파워이득이다. 일반적으로 서브밴드 수는 프레임 당 20∼40개이다. 각 서브밴드 별로 각 오디오 신호의 파워이득이 산출되면 가상 위치 추정부(1301)는 상기 파워이득으로부터 가상음원의 위치를 추정한다.
예를 들어 입력 오디오 신호가 5 채널인 경우, 다음의 [수학식 29]처럼 공간벡터 추정(가상음원의 위치 추정)을 할 수 있다.
[수학식 29]
Gvb=A1×G1,b+A2×G2,b+A3×G3,b+A4×G4,b+A5×G5,b
LHvb=A1×G1,b+A2×G2,b+A4×G4,b
RHvb=A1×G1,b+A3×G3,b+A5×G5,b
Lsvb=A1×G1,b+A2×G2,b
Rsvb=A1×G1,b+A3×G3,b
여기서 i는 오디오 신호 인덱스, b는 서브밴드 인덱스, Ai는 출력 오디오 신호의 위치로서 복소평면에서 표현되는 좌표, Gvb는 전체 5개 입력 오디오 신호(Lf, Ls, Rf, Rs, C)를 고려한 전방위 벡터,
Figure 112007501297971-pat00111
는 좌측 반평면의 오디오 신호들(Lf, Ls, C)을 고려한 좌측 반평면 벡터, RHvb는 우측 반평면의 오디오 신호들(Rf, Rs, C)을 고려한 우측 반평면 벡터, Lsvb는 Lf 및 C의 두 개 입력 오디오 신호만을 고려한 좌측 전방 벡터, Rsvb는 Rf 및 C의 두 개 입력 오디오 신호만을 고려한 우측 전방 벡터이다.
여기서, 하나의 가상음원 위치가 제어되려면 Gvb가 제어된다. 만일에 2개의 벡터를 통해 가상음원 위치가 제어되려면
Figure 112007501297971-pat00112
와 RHvb가 활용된다. 만일 두 쌍의 입력 오디오 신호에 대한 벡터(즉 좌측 전방 벡터 및 우측 전방 벡터)로 가상음원 위치가 제어되려면 Lsvb , Rsvb 등의 벡터가 활용될 수 있다. 두 쌍의 입력 오디오 신호에 대하여 벡터가 산출되고 활용될 경우, 입력 오디오 신호의 개수만큼의 쌍이 존재할 수 있다.
각 벡터에 대한 각(가상음원의 패닝 각)의 정보는 다음의 [수학식 30]으로부터 산출된다.
[수학식 30]
Figure 112007501297971-pat00113
마찬가지로, 나머지 벡터의 각도 정보(
Figure 112007501297971-pat00114
,
Figure 112007501297971-pat00115
,
Figure 112007501297971-pat00116
Figure 112007501297971-pat00117
) 또한 [수학식 20]과 유사하게 산출될 수 있다.
가상음원의 패닝 각은 원하는 오디오 신호간에 자유롭게 예측될 수 있으며, 상기 [수학식 29] 및 [수학식 30]은 여러가지 다양한 산출 방법 중 하나에 불과하기 때문에, 본 발명이 상기 [수학식 29] 및 [수학식 30]의 경우로 한정되는 것은 아니다.
다운믹스 신호의 b번째 서브밴드의 파워이득(Mdownmix,b)은 다음의 [수학식 31]에 의해 산출된다.
[수학식 31]
Figure 112007501297971-pat00118
여기서 b는 서브밴드 인덱스, Bb는 서브밴드의 경계, S는 다운믹스 신호, n 은 주파수 계수 인덱스이다.
공간화 수단(1203)은 다채널이 생성하는 가상음원의 위치를 유연하게 제어할 수 있는 구성으로서, 이상에서 설명된 바와 같이, 가상 위치 추정부(1301)는 CLD 파라미터로부터 가상음원의 위치 벡터를 추정한다. CLD 변환부(1303)는 가상 위치 추정부(1301)에 의해 추정된 가상음원의 위치벡터와 랜더링 제어정보로서 가상음원위치의 변화량 (Δδ)을 수신하고, 제어된 가상음원 위치벡터를 다음의 [수학식 32]에 따라 산출한다.
[수학식 32]
Figure 112007501297971-pat00119
그리고 CLD 변환부(1303)는, 상기 [수학식 23]에 따라 산출된, 제어된 가상음원 위치벡터(
Figure 112007501297971-pat00120
,
Figure 112007501297971-pat00121
,
Figure 112007501297971-pat00122
,
Figure 112007501297971-pat00123
,
Figure 112007501297971-pat00124
)에 대해 상기 [수학식 29] 및 [수학 식 31]을 역으로 적용하여 각 오디오 채널의 제어된 파워이득을 산출한다. 예를 들어, 하나의 각도만으로 제어되려면 [수학식 32]의
Figure 112007501297971-pat00125
에 관한 수식이 적용되며, 두 개의 좌측 반평면, 우측 반평면 벡터의 각도로 제어되려면 [수학식 32]의
Figure 112007501297971-pat00126
,
Figure 112007501297971-pat00127
에 관한 수식이 적용되며, 두 쌍의 입력 오디오 신호(좌측 전방 오디오 신호 및 우측 전방 오디오 신호)에 대한 벡터의 각도로 제어되려면 [수학식 32]의
Figure 112007501297971-pat00128
,
Figure 112007501297971-pat00129
에 관한 수식이 적용된다. 그 이외 쌍(예를 들어 Ls와 Lf, 또는 Rs와 Rf)의 입력 오디오 신호에 대한 벡터의 각도로 제어되려면, 마찬가지로 [수학식 29]의
Figure 112007501297971-pat00130
,
Figure 112007501297971-pat00131
에 관한 수식과 [수학식 32]의
Figure 112007501297971-pat00132
,
Figure 112007501297971-pat00133
에 관한 수식이 유사하게 적용된다.
또한 CLD 변환부(1303)는, 제어된 파워이득을 다시 CLD 값으로 변환한다.
변환된 CLD 값은 SAC 디코딩 수단(1205)으로 입력된다.
상기와 같은 본 발명의 일실시예는 일반 다채널 오디오 신호에 대해 적용가능하다. 도14는 본 발명의 일실시예가 적용된 다채널 오디오 디코더로서, 도면에 도시된 바와 같이, 부가정보 복호화 수단(1201) 및 공간화 수단(1203)을 더 포함하고 있다.
시간영역의 다채널 신호는 DFT(Discrete Fourier Transform), QMF (Quadrature Mirror Filterbank transform) 등의 변환 수단(1403)에 의해 주파수 영역으로 변환된다.
부가정보 복호화부(1201)는 변환 수단(1403)에 의해 변환된 신호로부터 공간 큐(예를 들어, CLD)를 추출하여 공간화 수단(1203)으로 전송한다. 공간화 수단(1203)은 [수학식 32]에 의한 CLD, 즉 제어된 가상음원 위치벡터로부터 산출된 제어된 파워이득을 나타내는 CLD를 파워이득 조절수단(1405)으로 전송하고, 파워이득 조절수단(1405)은 수신한 CLD에 기초하여 주파수 영역에서 서브밴드 별로 각 오디오 채널의 파워를 조절한다. 조절 방법은 다음의 [수학식 33]과 같다.
[수학식 33]
Figure 112007501297971-pat00134
여기서 Sch,n 은 ch번째 채널의 n번째 주파수 계수, S'ch,n 는 파워이득 조절수단(1105)에 의해 변형된 주파수 계수, Bn 은 b번째 서브밴드의 경계정보,
Figure 112007501297971-pat00135
는 [수학식 32]가 반영된 CLD 값 즉 공간화 수단(1203)의 출력 신호인 CLD 값으로부터 산출된 이득 계수이다.
상기와 같은 본 발명의 일실시예에 따르면, 공간큐의 변화량을 다채널 신호의 생성에 반영함으로써 오디오 신호의 가상음원 위치를 제어할 수 있다.
이상에서는 본 발명이 장치의 관점에서 기술되었으나, 당업자는 본 명세서의 기재로부터 본 발명이 방법의 관점으로도 구성될 수 있다는 것을 용이하게 이해할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등 )에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자에게 있어서 명백하다 할 것이다.
상기와 같이 본 발명에 따르면 다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치를 제공할 수 있다.

Claims (60)

  1. 오디오 신호 랜더링 제어 장치에 있어서,
    공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식의 인코딩 수단으로부터 전송되는 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및
    상기 인코딩 수단으로부터 전송되는 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단
    을 포함하되,
    상기 디코딩 수단은,
    상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하는
    오디오 신호 랜더링 제어 장치.
  2. 제1항에 있어서,
    상기 공간큐 정보는
    입력 오디오 신호간의 레벨 차를 나타내는 정보이고,
    상기 공간큐 랜더링 수단은
    상기 입력 오디오 신호간의 레벨 차를 나타내는 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 상기 오디오 신호 각각의 제어된 파워이득을 산출하는
    오디오 신호 랜더링 제어 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
KR20070011643A 2006-02-03 2007-02-05 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치 KR101294022B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/869,902 US11375331B2 (en) 2006-02-03 2020-05-08 Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue

Applications Claiming Priority (14)

Application Number Priority Date Filing Date Title
KR1020060010559 2006-02-03
KR20060010559 2006-02-03
US78699906P 2006-03-29 2006-03-29
US60/786999 2006-03-29
US83005206P 2006-07-11 2006-07-11
US81990706P 2006-07-11 2006-07-11
US60/830052 2006-07-11
US60/819907 2006-07-11
KR20060066488 2006-07-14
KR1020060066488 2006-07-14
KR20060069961 2006-07-25
KR1020060069961 2006-07-25
KR1020070001996 2007-01-08
KR20070001996 2007-01-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020120083964A Division KR101395253B1 (ko) 2006-02-03 2012-07-31 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링 제어 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20070079945A KR20070079945A (ko) 2007-08-08
KR101294022B1 true KR101294022B1 (ko) 2013-08-08

Family

ID=46859111

Family Applications (2)

Application Number Title Priority Date Filing Date
KR20070011643A KR101294022B1 (ko) 2006-02-03 2007-02-05 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
KR1020120083964A KR101395253B1 (ko) 2006-02-03 2012-07-31 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링 제어 방법 및 그 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020120083964A KR101395253B1 (ko) 2006-02-03 2012-07-31 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링 제어 방법 및 그 장치

Country Status (6)

Country Link
US (4) US9426596B2 (ko)
EP (4) EP2629292B1 (ko)
JP (1) JP4966981B2 (ko)
KR (2) KR101294022B1 (ko)
CN (3) CN102693727B (ko)
WO (1) WO2007089131A1 (ko)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1946295B1 (en) 2005-09-14 2013-11-06 LG Electronics Inc. Method and apparatus for decoding an audio signal
WO2007083739A1 (ja) * 2006-01-19 2007-07-26 Nippon Hoso Kyokai 3次元音響パンニング装置
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
KR100829870B1 (ko) * 2006-02-03 2008-05-19 한국전자통신연구원 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법
JP2009526467A (ja) * 2006-02-09 2009-07-16 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法とその装置
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
RU2551797C2 (ru) 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
EP2054875B1 (en) * 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
WO2009048239A2 (en) * 2007-10-12 2009-04-16 Electronics And Telecommunications Research Institute Encoding and decoding method using variable subband analysis and apparatus thereof
MX2010004138A (es) 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
KR101566025B1 (ko) * 2007-10-22 2015-11-05 한국전자통신연구원 다객체 오디오 부호화 및 복호화 방법과 그 장치
US20090123523A1 (en) * 2007-11-13 2009-05-14 G. Coopersmith Llc Pharmaceutical delivery system
KR100943215B1 (ko) 2007-11-27 2010-02-18 한국전자통신연구원 음장 합성을 이용한 입체 음장 재생 장치 및 그 방법
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8620009B2 (en) 2008-06-17 2013-12-31 Microsoft Corporation Virtual sound source positioning
EP2297728B1 (en) * 2008-07-01 2011-12-21 Nokia Corp. Apparatus and method for adjusting spatial cue information of a multichannel audio signal
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US9351070B2 (en) 2009-06-30 2016-05-24 Nokia Technologies Oy Positional disambiguation in spatial audio
KR101600354B1 (ko) * 2009-08-18 2016-03-07 삼성전자주식회사 사운드에서 오브젝트 분리 방법 및 장치
KR101387195B1 (ko) * 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
WO2011045465A1 (en) * 2009-10-12 2011-04-21 Nokia Corporation Method, apparatus and computer program for processing multi-channel audio signals
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing
US8887074B2 (en) 2011-02-16 2014-11-11 Apple Inc. Rigging parameters to create effects and animation
US9420394B2 (en) 2011-02-16 2016-08-16 Apple Inc. Panning presets
EP2509337B1 (en) * 2011-04-06 2014-09-24 Sony Ericsson Mobile Communications AB Accelerometer vector controlled noise cancelling method
JP6049762B2 (ja) * 2012-02-24 2016-12-21 ドルビー・インターナショナル・アーベー オーディオ処理
RU2613731C2 (ru) 2012-12-04 2017-03-21 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
WO2014168618A1 (en) * 2013-04-11 2014-10-16 Nuance Communications, Inc. System for automatic speech recognition and audio entertainment
CN108810793B (zh) * 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN103237240A (zh) * 2013-05-08 2013-08-07 无锡北斗星通信息科技有限公司 地面信道传输超高清数字电视信号的数字机顶盒
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102343453B1 (ko) * 2014-03-28 2021-12-27 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US9462406B2 (en) 2014-07-17 2016-10-04 Nokia Technologies Oy Method and apparatus for facilitating spatial audio capture with multiple devices
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
EP3260977B1 (en) * 2016-06-21 2019-02-20 Stichting IMEC Nederland A circuit and a method for processing data
WO2018144850A1 (en) * 2017-02-02 2018-08-09 Bose Corporation Conference room audio setup
GB201808897D0 (en) * 2018-05-31 2018-07-18 Nokia Technologies Oy Spatial audio parameters
CN110881157B (zh) * 2018-09-06 2021-08-10 宏碁股份有限公司 正交基底修正的音效控制方法及音效输出装置
KR20220151953A (ko) 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2165370T3 (es) * 1993-06-22 2002-03-16 Thomson Brandt Gmbh Metodo para obtener una matriz decodificadora multicanal.
US6009179A (en) * 1997-01-24 1999-12-28 Sony Corporation Method and apparatus for electronically embedding directional cues in two channels of sound
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6230130B1 (en) 1998-05-18 2001-05-08 U.S. Philips Corporation Scalable mixing for speech streaming
US6694027B1 (en) * 1999-03-09 2004-02-17 Smart Devices, Inc. Discrete multi-channel/5-2-5 matrix system
US6898411B2 (en) * 2000-02-10 2005-05-24 Educational Testing Service Method and system for online teaching using web pages
US7660424B2 (en) * 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
KR100414196B1 (ko) 2001-04-24 2004-01-07 금호타이어 주식회사 타이어의 배수성 측정장치
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
WO2004036955A1 (en) * 2002-10-15 2004-04-29 Electronics And Telecommunications Research Institute Method for generating and consuming 3d audio scene with extended spatiality of sound source
WO2004036954A1 (en) 2002-10-15 2004-04-29 Electronics And Telecommunications Research Institute Apparatus and method for adapting audio signal according to user's preference
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
KR101158709B1 (ko) * 2004-09-06 2012-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 강화
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
EP1866911B1 (en) * 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
EP1943642A4 (en) * 2005-09-27 2009-07-01 Lg Electronics Inc METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
BRPI0706285A2 (pt) * 2006-01-05 2011-03-22 Ericsson Telefon Ab L M métodos para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico e para transmitir dados digitais representando som a uma unidade móvel, decodificador envolvente paramétrico para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico, e, terminal móvel
JP4944902B2 (ja) * 2006-01-09 2012-06-06 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR101366291B1 (ko) * 2006-01-19 2014-02-21 엘지전자 주식회사 신호 디코딩 방법 및 장치
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Faller. Christof, "Parametric coding of spatial audio", EPFL, 2004, pages 85-87 *
J.Breebaart et al, "MPEG Spatial audio Coding / MPEG surround Overview and Current Staus", Audio Engineering Society(Convention Paper) 2005 October 7-10 *

Also Published As

Publication number Publication date
EP2629292A2 (en) 2013-08-21
EP1989704B1 (en) 2013-10-16
CN103366747B (zh) 2017-05-17
KR101395253B1 (ko) 2014-05-15
EP1989704A4 (en) 2012-02-22
CN102693727B (zh) 2015-06-10
US10652685B2 (en) 2020-05-12
US20200267488A1 (en) 2020-08-20
KR20070079945A (ko) 2007-08-08
US20120294449A1 (en) 2012-11-22
US20190215633A1 (en) 2019-07-11
KR20120099192A (ko) 2012-09-07
US11375331B2 (en) 2022-06-28
JP2009525671A (ja) 2009-07-09
EP2528058A3 (en) 2012-12-12
EP1989704A1 (en) 2008-11-12
EP3267439A1 (en) 2018-01-10
JP4966981B2 (ja) 2012-07-04
CN102693727A (zh) 2012-09-26
EP2528058B1 (en) 2017-05-17
WO2007089131A1 (en) 2007-08-09
CN101410891A (zh) 2009-04-15
CN103366747A (zh) 2013-10-23
EP2528058A2 (en) 2012-11-28
US20090144063A1 (en) 2009-06-04
EP2629292B1 (en) 2016-06-29
EP2629292A3 (en) 2014-04-02
US10277999B2 (en) 2019-04-30
US9426596B2 (en) 2016-08-23

Similar Documents

Publication Publication Date Title
KR101294022B1 (ko) 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
US8265284B2 (en) Method and apparatus for generating a binaural audio signal
KR101410575B1 (ko) 강화 다운믹스 신호를 생성하는 장치, 강화 다운믹스 신호를 생성하는 방법 및 컴퓨터 프로그램
US9369164B2 (en) Method, medium, and system decoding and encoding a multi-channel signal
JP5133401B2 (ja) 出力信号の合成装置及び合成方法
JP5511136B2 (ja) マルチチャネルシンセサイザ制御信号を発生するための装置および方法並びにマルチチャネル合成のための装置および方法
US9479871B2 (en) Method, medium, and system synthesizing a stereo signal
JP5490143B2 (ja) ダウンミックスオーディオ信号をアップミックスするためのアップミキサー、方法、および、コンピュータ・プログラム
US20140100856A1 (en) Apparatus and method for coding and decoding multi object audio signal with multi channel
KR20080107446A (ko) 멀티 채널 오디오 재구성에서 신호 셰이핑을 위한 개선 방법
JP2012516461A (ja) ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム
US20080037795A1 (en) Method, medium, and system decoding compressed multi-channel signals into 2-channel binaural signals

Legal Events

Date Code Title Description
A201 Request for examination
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170727

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190725

Year of fee payment: 7