KR20100065121A - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20100065121A
KR20100065121A KR1020090119980A KR20090119980A KR20100065121A KR 20100065121 A KR20100065121 A KR 20100065121A KR 1020090119980 A KR1020090119980 A KR 1020090119980A KR 20090119980 A KR20090119980 A KR 20090119980A KR 20100065121 A KR20100065121 A KR 20100065121A
Authority
KR
South Korea
Prior art keywords
signal
information
downmix
background
multichannel
Prior art date
Application number
KR1020090119980A
Other languages
English (en)
Inventor
오현오
정양원
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to EP09015146A priority Critical patent/EP2194526A1/en
Priority to PCT/KR2009/007265 priority patent/WO2010064877A2/en
Priority to CN2009801490217A priority patent/CN102239520A/zh
Priority to US12/632,334 priority patent/US8670575B2/en
Publication of KR20100065121A publication Critical patent/KR20100065121A/ko
Priority to US14/178,096 priority patent/US9502043B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

본 발명은 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 단계; 백그라운드-오브젝트 신호 및 포어그라운드-오브젝트 신호 중 하나 이상을 상기 다운믹스 신호로부터 추출하는 단계; 상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하는 단계; 상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 단계; 및 상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 단계를 포함하는 오디오 신호 처리 방법을 개시한다.
오브젝트, 오디오

Description

오디오 신호 처리 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING AN AUDIO SIGNAL}
본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.
일반적으로, 다수 개의 오브젝트를 모노 또는 스테레오 신호로 다운믹스하는 과정에 있어서, 각각의 오브젝트 신호로부터 파라미터들이 추출된다. 이러한 파라미터들은 디코더에서 사용될 수 있는 데, 각각의 오브젝들의 패닝(panning)과 게인(gain)은 유저의 선택에 의해 컨트롤 될 수 있다.
각각의 오브젝트 시그널을 제어하기 위해서는, 다운믹스에 포함되어 있는 각각의 소스들이 적절히 포지셔닝 또는 패닝되어야 한다.
또한, 채널 기반(channel-oriented) 디코딩 방식으로 하향 호환성을 갖기 위해서는, 오브젝트 파라미터는 업믹싱을 위한 멀티 채널 파라미터로 유연하게 변환되어야 한다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 오브젝트의 게인과 패닝을 컨트롤하여, 모노 신호, 스테레오 신호, 및 멀티채널 신호로 출력할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 그 목적이 있다.
본 발명의 또 다른 목적은, 보컬이나 배경음악의 게인을 큰 폭으로 조절하는 경우에도 음질의 왜곡을 발생시키지 않는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 멀티채널 디코더를 통하지 않고 모노 또는 스테레오 신호를 출력하는 경우에도, 배경음악의 게인을 조정할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 단계; 백그라운드-오브젝트 신호 및 포어그라운드-오브젝트 신호 중 하나 이상을 상기 다운믹스 신호 로부터 추출하는 단계; 상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하는 단계; 상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 단계; 및 상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 단계를 포함한다.
본 발명에 따르면, 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드-오브젝트 신호 중 하나 이상의 상기 오브젝트 정보를 더 이용하여 추출되는 것일 수 있다.
본 발명에 따르면, 상기 백그라운드-오브젝트 신호는 모노 신호 또는 스테레오 신호 중 하나에 해당할 수 있다.
본 발명에 따르면, 상기 프로세싱된 다운믹스 신호는 시간 도메인의 신호에 해당할 수 있다.
본 발명에 따르면, 상기 방법은 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 멀티채널 정보를 생성하는 단계; 및, 상기 멀티채널 정보 및 상기 프로세싱된 다운믹스 신호를 이용하여 멀티채널 신호를 생성하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 멀티플렉서; 백그라운드-오브젝트 신호 및 포어그라운드-오브 젝트 신호 중 하나 이상을 상기 다운믹스 신호로부터 추출하는 추출 유닛; 상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하고, 상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 정보 생성 유닛; 및 상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 렌더링 유닛을 포함하는 오디오 신호 처리 장치가 제공된다.
본 발명에 따르면, 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드-오브젝트 신호 중 하나 이상의 상기 오브젝트 정보를 더 이용하여 추출될 수 있다.
본 발명에 따르면, 상기 백그라운드-오브젝트 신호는 모노 신호 또는 스테레오 신호 중 하나에 해당할 수 있다.
본 발명에 따르면, 상기 프로세싱된 다운믹스 신호는 시간 도메인의 신호에 해당할 수 있다.
본 발명에 따르면, 상기 장치는 상기 멀티채널 정보 및 상기 프로세싱된 다운믹스 신호를 이용하여 멀티채널 신호를 생성하는 멀티채널 디코더를 더 포함하고, 상기 멀티채널 정보는 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 생성된 것일 수 있다.
본 발명의 또 다른 측면에 따르면, 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 단계; 백그라운드-오브젝트 신호 및 포어그라운드-오브젝트 신 호 중 하나 이상을 상기 다운믹스 신호로부터 추출하는 단계; 상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하는 단계; 상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 단계; 및 상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 단계를 포함하는 동작들을, 프로세서에 의해 실행될 때, 상기 프로세서가 수행하도록 하는 명령이 저장되어 있는 컴퓨터로 읽을 수 있는 저장 매체가 제공된다.
본 발명은 다음과 같은 효과와 이점을 제공한다.
우선, 오브젝트의 게인과 패닝을 제한없이 컨트롤 할 수 있다.
둘째, 유저의 선택을 기반으로 오브젝트의 게인과 패닝을 컨트롤할 수 있다.
셋째, 보컬이나 배경 음악 중 하나를 완전하게 억압하는 경우에도, 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.
넷째, 모노 또는 스테레오 신호를 출력하는 경우에도 배경음악의 게인을 조정할 수 있기 때문에, 노래방 모드를 자유롭게 구현할 수 있다.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.  이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성을 보여주는 도면이다. 도 1의 (A)는 백그라운드 오브젝트(BackGround Object: BGO)가 모노 또는 스테레오 신호인 경우이고, 도 1의 (B)는 백그라운드 오브젝트 신호(BGO)가 멀티채널 신호인 경우이다.
우선 도 1의 (A)를 살펴보면, 디코더(100A)는 오브젝트 인코더(120A)를 포함한다. 오브젝트 인코더(120A)는 모노 또는 스테레오 채널의 백그라운드 오브젝트(BGO) 및 하나 이상의 포어그라운드 오브젝트(ForeGround Object)를 오브젝트 기 반의 방식으로 다운믹스함으로써 다운믹스 신호(DMX)를 생성하고, 다운믹스 과정에서 오브젝트 정보 및 레지듀얼을 생성한다.
여기서 백그라운드 오브젝트(BGO)란, 예를 들어, 다수의 소스 신호(예: 악기 신호)를 포함하는 배경 음악 등으로서, 개별적인 악기 신호를 제어하기 보다는 여러 개의 악기 소리를 동시에 제어하고자 할 때 백그라운드 오브젝트를 그 여러 개의 악기 신호로 구성할 수 있다. 한편, 백그라운드 오브젝트(BGO)가 모노 신호인 경우 그 모노 신호는 하나의 오브젝트가 된다. 백그라운드 오브젝트가 스테레오 신호인 경우, 좌측 채널 신호 및 우측 채널 신호가 각각 하나의 오브젝트가 되기 때문에 총 2개의 오브젝트 신호가 된다.
반면, 포어그라운드 오브젝트(FGO)란, 하나의 소스 신호에 대응되는 것으로 예를 들어, 하나 이상의 보컬 신호에 해당할 수 있다. 포어그라운드 오브젝트(FGO)는 오브젝트 기반의 인코더/디코더에서 컨트롤하는 일반적인 오브젝트 신호에 해당한다.
만약 포어그라운드 오브젝트(FGO)의 레벨을 0으로 조정하는 경우, 백그라운드 오브젝트(BGO)만이 재생될 수 있기 때문에, 가라오케 모드가 구현될 수 있다. 반대로, 백그라운드 오브젝트(BGO)의 레벨을 0으로 낮추는 경우, 포어그라운드 오브젝트(FGO)만 재생될 수 있기 때문에, 솔로 모드가 구현될 수 있고, 나아가 포어그라운드 오브젝트가 둘 이상인 경우에는 아카펠라 모드가 구현될 수 있다.
오브젝트 인코더(120A)는 상기 언급한 바와 같이 백그라운드 오브젝트(BGO) 및 포어그라운드 오브젝트(FGO)를 포함하는 오브젝트를 다운믹스함으로써 다운믹 스(DMX)를 생성하고, 이 다운믹스 과정에서 오브젝트 정보를 생성한다. 오브젝트 정보(OI)는 다운믹스 신호 내에 포함되어 있는 오브젝트들에 관한 정보이자, 다운믹스 신호(DMX)로부터 다수 개의 오브젝트 신호를 생성하기 위해 필요한 정보이다. 오브젝트 정보는 오브젝트 레벨 정보(object level information), 오브젝트 상관 정보(object correlation information) 등을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
한편 오브젝트 인코더(120A)는 다운믹싱 과정에 있어서, 백그라운드 오브젝트(BGO) 및 포어그라운드 오브젝트(FGO)의 차이(difference)에 대한 정보에 해당하는 레지듀얼 신호를 생성할 수 있다. 구체적으로, 오브젝트 인코더(120A)는 NTO 모듈(122-1) 또는 NTT 모듈(122-2)을 포함할 수 있는데 데, 이는 도 2와 함께 후술하고자 한다.
한편, 도 1의 (B)를 살펴보면, 백그라운드 오브젝트(BGO)가 멀티 채널인 경우, 인코더(100B)는 공간 인코더(110B)를 더 포함한다. 공간 인코더(110B)는 멀티 채널 백그라운드 오브젝트(Multi-channel Background Object: MBO)를 채널 기반의 방식으로 다운믹스함으로써, 모노 또는 스테레오의 다운믹스를 생성한다. 공간 인코더(110B)는 이 다운믹싱 과정에서 공간 정보(spatial information)를 추출한다. 공간 정보란, 다운믹스(DMX)를 멀티 채널로 업믹싱하기 위한 정보로서, 채널 레벨 정보(channel level information), 채널 상관 정보(channel correlation information) 등을 포함할 수 있다.
이와 같이 공간 인코더(110B)는 모노 채널 또는 스테레오 채널의 다운믹스 및 공간 정보를 생성한다. 공간 정보는 비트스트림을 통해 디코더에 전달되고, 이 모노 또는 스테레오의 다운믹스는 하나 또는 두 개의 오브젝트로서 오브젝트 인코더(120B)에 입력된다. 오브젝트 인코더(120B)는 도 1의 (A)의 오브젝트 인코더(120A)의 구성과 동일할 수 있으므로, 구체적인 설명은 생략하고자 한다.
도 2를 참조하면, NTO 모듈(122-1) 및 NTT 모듈(122-2)의 일 예가 도시되어 있다. 우선 도 2의 (A)를 살펴보면, NTO(N-To-One) 모듈(122-1)이 모노 채널의 BGO(BGOm) 및 두 개의 FGO(FGO1, FGO2)를 다운믹스함으로써 모노 다운믹스(DMXm)를 생성하고 두 개의 레지듀얼 신호(residual1, residual2)를 생성한다. 예를 들어, 모노 채널의 배경음악에 두 명의 보컬이 존재하는 경우일 수 있다. 그리고, 백그라운드 오브젝트가 모노 신호이기 때문에, 다운믹스 신호 또한 모노 신호에 해당할 수 있는 것이다. 한편 제1 레지듀얼(residual1)은 제1 FGO(FGO1)가 모노 백그라운드 오브젝트(BGOm)와 결합되어 제1 임시 다운믹스가 생성될 때, 결정되는 신호일 수 있다. 제2 레지듀얼(residual2)은 제2 FGO(FGO2)가 제1 임시 다운믹스에 다운믹스 되어 최종 다운믹스(DMXm)가 생성될 때, 추출되는 신호일 수 있으나, 본 발명은 이에 한정되지 아니한다.
한편, 도 2의 (B)를 살펴보면, NTT(N-To-Two) 모듈(122-2)이 스테레오 신호의 BGO(BGOL, BGOR) 및 세 개의 FGO를 다운믹스함으로써 스테레오 다운믹스(DMXL, DMXR)를 생성하고 이 과정에서 제1 내지 제3 레지듀얼(residual1,~,resiudal3)를 추 출한다. 여기서 BGO가 스테레오 채널이기 때문에 다운믹스 신호 또한 스테레오 채널일 수 있다. 한편, NTO 모듈(122-1)의 경우와 마찬가지로 제1 레지듀얼(residual1)은 제1 FGO(FGO1)가 스테레오 백그라운드 오브젝트(BGOL, BGOR)에 결합되어, 제1 임시 다운믹스가 생성될 때, 결정되는 신호일 수 있다. 제2 레지듀얼은 제2 FGO가 제1 임시 다운믹스에 결합되어 제2 임시 다운믹스가 생성될 때 결정되는 신호일 수 있고, 제3 레지듀얼은 제3 FGO가 제2 임시 다운믹스에 결합되어 최종 다운믹스(BGOL, BGOR)가 생성될 때, 추출되는 신호일 수 있다. 본 발명은 이에 한정되지 아니한다.
도 3는 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더의 구성을 보여주는 도면이고, 도 4는 본 발명의 실시예에 따른 오디오 신호 처리 장치의 순서를 보여주는 도면이다. 우선, 도 3을 참조하면, 디코더(200)는 다운믹스 프로세싱 유닛(220), 정보 생성 유닛(240)를 포함하고, 멀티플렉서(미도시) 및 멀티채널 디코더(260)를 더 포함할 수 있다. 한편, 다운믹스 프로세싱 유닛(220)는 추출 유닛(222) 및 렌더링 유닛(224)을 포함할 수 있다.
도 3 및 도 4를 참조하면, 멀티플렉서(미도시)는 비트스트림을 통해 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신한다(S110 단계). 여기서 다운믹스 신호는 백그라운드 오브젝트(BGO) 및 하나 이상의 포어그라운드 오브젝트(FGO)가 앞서 도 1 및 도 2와 함께 설명된 방식으로 다운믹스된 신호에 해당할 수 있다. 레지듀얼 신호 또한 앞서 도 1 및 도 2와 함께 설명된 레지듀얼 신호에 해당할 수 있다. 오브젝트 정보는 앞서 도 1과 함께 설명된 오브젝트 정보와 동일한 것일 수 있기 때문에, 이에 대한 구체적인 설명은 생략하고자 한다.
추출 유닛(220)은 다운믹스 신호(DMX)부터 백그라운드 오브젝트(BGO) 및 하나 이상의 포어그라운드 오브젝트(FGO)를 추출한다(S120 단계). 여기서 앞서 도 1 및 도 2와 함께 설명한 바와 같이, 다운믹스(DMX)는 모노 또는 스테레오 채널에 해당할 수 있고, 백그라운드 오브젝트(BGO) 또는 모노 또는 스테레오 채널에 해당할 수 있다. 추출 유닛(220)은 OTN(One-To-N) 모듈 또는 TTN(Two-To-N) 모듈을 포함할 수 있는데, 이 구성을 도 5와 함께 설명하고자 한다.
도 5는 추출 유닛(220)에 포함되는 OTN 모듈 또는 OTT 모듈의 구성을 보여주는 도면이다. 도 5를 참조하면, OTN 모듈(222-1)은 모노 다운믹스(DMXm)로부터 하나 이상의 FGO를 추출하고, TTN 모듈(222-2)은 스테레오 다운믹스(DMXL, DMXR)로부터 하나 이상의 FGO를 추출한다. OTN 모듈(222-1)는 도 2와 함께 설명된 NTO 모듈(122-1)의 역과정을 수행하고, TTN 모듈(222-2)은 도 2와 함께 설명된 NTT 모듈(222-2)의 역과정을 수행할 수 있기 때문에, 구체적인 설명은 생략하기로 한다.
다시 도 3 및 도 4를 참조하면, 추출 유닛(222)는 모노 또는 스테레오 다운믹스(DMX)로부터 백그라운드 오브젝트 및 하나 이상의 포어그라운드를 추출하는데 있어서, 오브젝트 정보를 더 이용할 수 있다. 이 오브젝트 정보는 비트스트림으로부터 추출 유닛(222)이 직접 파싱함으로써 획득한 것일 수도 있고, 아니면 정보 생성 유닛(240)로부터 전달받은 것일 수도 있는데 본 발명은 이에 한정되지 아니한 다.
한편, 정보 생성 유닛(240)은 믹스 정보(MXI)를 수신하는데(S130 단계), 여기서 믹스 정보는 BGO에 대한 게인 컨트롤 정보를 포함할 수 있다. 믹스 정보(MXI)란, 오브젝트 위치 정보(object position information), 오브젝트 게인 정보(object gain information), 및 재생 환경 정보(playback configuration information) 등을 근거로 생성된 정보이다. 여기서 오브젝트 위치 정보 및 오브젝트 게인 정보는 다운믹스에 포함된 오브젝트를 제어하기 위한 정보로서, 여기서 오브젝트는 앞서 설명한 포어그라운드 오브젝트(FGO)뿐만 아니라 백그라운드 오브젝트(BGO)까지 포함되는 개념이다.
구체적으로, 오브젝트 위치 정보란, 사용자가 각 오브젝트의 위치 또는 패닝(panning)를 제어하기 위해 입력한 정보이며, 오브젝트 게인 정보란, 사용자가 각 오브젝트의 게인(gain)을 제어하기 위해 입력한 정보이다. 따라서 여기 오브젝트 게인 정보는 FGO에 대한 게인 컨트롤 정보뿐만 아니라 BGO에 대한 게인 컨트롤 정보를 포함할 수 있다.
한편, 오브젝트 위치 정보 및 오브젝트 게인 정보는 프리셋 모드들로부터 선택된 하나일 수 있는데, 프리셋 모드란, 시간에 따라 오브젝트 특정 게인 및 특정 위치가 미리 결정된 값으로서, 프리셋 모드 정보는, 다른 장치로부터 수신된 값일 수도 있고, 장치에 저장되어 있는 값일 수도 있다. 한편, 하나 이상의 프리셋 모드들(예: 프리셋 모드 사용안함, 프리셋 모드 1, 프리셋 모드 2 등) 중 하나를 선택하는 것은 사용자 입력에 의해 결정될 수 있다.
재생환경 정보는, 스피커의 개수, 스피커의 위치, 앰비언트 정보(speaker의 가상 위치) 등을 포함하는 정보로서, 사용자로부터 입력받을 수도 있고, 미리 저장되어 있을 수도 있으며, 다른 장치로부터 수신할 수도 있다.
한편, 정보 생성 유닛(220)은 믹스 정보(MXI)뿐만 아니라 출력 모드 정보(OM)를 더 수신할 수 있다. 출력 모드 정보(OM)란 출력 모드에 관한 정보로서, 예를 들어, 몇 개의 신호로 출력하는지에 대한 정보를 포함할 수 있다. 몇 개의 신호로 출력하는지에 대한 정보는, 모노 출력 모드, 스테레오 출력 모드, 멀티채널 출력 모드 등 중 하나에 해당하는 정보일 수 있다. 한편, 출력모드정보(OM)는 상기 믹스 정보(MXI)의 스피커의 개수와 동일할 수 있는 데, 미리 저장되어 있는 경우 장치정보를 근거로 한 것이고, 사용자로부터 입력받은 경우 유저 인풋 정보를 근거로 한 것이다. 이때 유저 인풋 정보는 상기 믹스 정보(MXI)에 포함될 수 있다.
정보 생성 유닛(240)은 S110 단계에서 수신된 오브젝트 정보 및 S130 단계에서 수신된 믹스 정보를 기반으로 하여 다운믹스 프로세싱 정보를 생성한다(S140 단계). 믹스 정보는 FGO에 대한 게인 및/또는 위치 정보뿐만 아니라 BGO에 대한 게인 컨트롤 정보를 포함할 수 있다. 예를 들어, 가라오케 모드인 경우, FGO에 대한 게인을 0으로 조정하고, BGO에 대한 게인 컨트롤을 일정 범위로 조정할 수 있다. 반대로 솔로 모드 또는 아카펠라 모드인 경우, BGO에 대한 게인을 0으로 조정하고, 하나 이상의 FGO에 대한 게인 및/또는 위치를 제어할 수 있다.
렌더링 유닛(224)는 백그라운드 오브젝트(BGO) 및 하나 이상의 포어그라운드 오브젝트(FGO) 중 하나 이상에 대해서 S140 단계에서 생성된 다운믹스 프로세싱 정 보를 적용함으로써, 프로세싱된 다운믹스 신호를 생성한다(S150 단계).
그런 다음, 만약 출력 모드(OM)가 모노 또는 스테레오 출력 모드인 경우, 렌더링 유닛(224)은 시간 도메인 신호의 프로세싱된 다운믹스 신호를 생성하여 출력한다(S160 단계). 출력 모드(OM)이 멀티채널 출력 모드인 경우, 정보 생성 유닛(240)은 오브젝트 정보 및 믹스 정보(MXI)를 근거로 하여 멀티채널 정보(MI)를 생성한다. 멀티채널 정보란, 다운믹스(DMX)를 멀티채널 신호로 업믹싱하기 위한 채널 기반의 정보로서, 채널 레벨 정보(channel level information), 채널 상관 정보(channel correlation information) 등을 포함할 수 있다.
멀티채널 정보(MI)가 생성된 경우, 멀티채널 디코더는 다운믹스(DMX) 및 멀티채널 정보(MI)를 이용하여 멀티채널 출력 신호를 생성한다(S160 단계).
도 6 및 도 7는 가라오케 모드인 경우, 멀티채널 백그라운드 오브젝트(MBO) 신호를 추출하는 디코더의 제1 예 및 제2 예이다. 우선 도 6을 살펴보면, 디코더(200A.1)은 도 3의 디코더(200)의 구성요소와 동일한 이름을 가진 구성요소를 포함하고, 비슷한 기능을 수행한다. 이하에서는 도 3의 디코더(200)와 다른 기능을 하는 부분에 대해서만 설명하고자 한다.
추출 유닛(222A)은 앞서 도 3과 함께 설명한 추출 유닛(222)과 마찬가지로 다운믹스로부터 백그라운드 오브젝트 및 하나 이상의 포어그라운드 오브젝트를 추출하는데, 여기서 백그라운드 오브젝트가 멀티채널 백그라운드 오브젝트(MBO)에 해당하는 경우, 멀티플렉서(미도시)는 공간 정보를 수신한다. 여기서 공간 정보는 다운믹스된 백그라운드 오브젝트를 멀티채널 신호로 업믹스하기 위한 정보로서, 앞서 도 1의 (B)에서 공간 인코더(110B)에서 생성된 공간 정보와 동일한 것일 수 있다.
백그라운드 오브젝트(BGO)가 멀티채널 백그라운드 오브젝트(MBO)로부터 다운믹스된 신호에 해당하고, 믹스 정보(MXI)에 의해 가라오케 모드가 선택된 경우(즉, FGO에 대한 게인이 0으로 조정된 경우), 정보 생성 유닛(240A.1)이 멀티채널 정보(MI)을 생성하기 보다는, 수신된 공간정보를 그대로 멀티채널 디코더(260A)에서 이용할 수 있다. 이 공간 정보가 MBO로부터 모노/스테레오 BGO가 생성될 때 추출된 정보이기 때문이다.
이때, 멀티채널 디코더(260A)에 의해 추출된 BGO를 멀티채널 디코더(260A)로 입력되기 전에, 전체적으로 BGO의 게인을 높이거나 낮추는 제어를 할 수 있다. 이러한 제어에 관한 정보가 믹스 정보(MXI)에 포함되고, 되고, 이 믹스 정보(MXI)가 다운믹스 프로세싱 정보(DPI)에 반영됨으로써, BGO가 멀티채널 신호로 업믹싱되기 전에 그 게인이 조절될 수 있는 것이다.
도 7은 도 6의 경우와 마찬가지로, BGO가 MBO로부터 다운믹스된 경우이고, BGO가 MBO로 업믹싱되기 전에 BGO의 게인을 조정하는 경우이다. 도 6의 디코더(220A.1)는 이러한 제어를 다운믹싱 프로세싱 정보에 반영하는데 비해, 도 7에 도시된 디코더(220A.2)는 이러한 제어를 임의적 다운믹스 게인(ADG: Arbitrary Downmix Gain)으로 변환하여 멀티채널 디코더(260A.1)로 입력되는 공간정보에 포함시킨다. 여기서 임의적 다운믹스 게인이란, 멀티채널 디코더에서 다운믹스 신호에 대한 게인을 조절하기 위한 팩터로서, 멀티채널 신호로 업믹싱되기 이전의 다운믹스 신호 즉, 이 경우에는 모노 또는 스테레오의 BGO에 대해서 적용되는 게인이다. 이와 같이 모노 또는 스테레오 BGO에 대한 게인을 임의적 다운믹스 게인을 이용하여 조절할 수 있다.
도 8은 가라오케 모드인 경우, 모노/스테레오 백그라운드 오브젝트(BGO) 신호를 추출하는 디코더의 일 예를 보여준다. 도 8을 참조하면, 디코더(200B)는 앞서 도 6 및 도 7와 마찬가지로, 도 3에 도시된 디코더(200)와 동일 명칭의 구성요소를 포함하고, 대부분 비슷한 기능을 수행한다. 이하에서는 차이점만을 설명한다.
디코더(200B)는 도 6 및 도 7의 경우와 달리 백그라운드 오브젝트(BGO)가 멀티채널 백그라운드 오브젝트(MBO)가 아니기 때문에 인코더로부터 수신되는 공간정보가 존재하지 않는다. 따라서, 모노/스테레오 백그라운드 오브젝트(BGO)가 멀티채널 디코더(260B)로 입력되지 않고 다운믹스 프로세싱 유닛(220B)에서 시간 도메인 신호로서 출력될 수 있다. 만약, 사용자가 5.1 채널 등의 다채널 스피커를 가지고 있어서, BGO가 멀티채널 디코더(260B)로 입력되는 경우에는, 5.1 채널 등의 센터 채널, 또는 좌측 채널 및 우측 채널에 매핑시킬 필요가 있을 수 있다. 또한, 사용자가 모노 BGO을 좌측 채널 또는 우측 채널에 모두 같은 레벨로 매핑시키고자 할 경우가 있을 수 있다. 출력모드에 따른 자동 BGO 렌더링과 사용자 의도에 따른 BGO 렌더링, 이 두 가지 경우에 대해서 순서대로 설명하고자 한다.
1. 출력모드에 따른 자동 BGO 렌더링
모노 또는 스테레오인 BGO의 채널 개수와 출력모드의 채널 수가 일치할 경우, 디코더(200B)에서는 추가적인 프로세스가 필요하지 않다. 예를 들어 BGO가 모 노 신호이고, 디코더의 출력모드(OM)가 모노인 경우, 렌더링 유닛(224B)는 시간 도메인의 모노 신호를 출력한다. 만약 BGO가 스트레오 신호인 경우, 디코더의 출력모드(OM)가 스테레오인 경우에는, 마찬가지로 렌더링 유닛(224B)는 시간 도메인의 모노 신호를 출력한다.
그러나, BGO의 채널 수는 모노 또는 스테레오이고, 출력 모드가 5.1 채널 등의 3채널 이상의 신호인 경우, 멀티채널 디코더(260B)가 활성화되어야 한다. 즉, 정보 생성 유닛(240B)은 모노 또는 스테레오 BGO를 멀티채널에 적절히 매핑하기 위해 멀티채널 정보(MI)를 생성한다. 예를 들어 모노 BGO인 경우 이를 멀티채널 중 센터 채널(C)에 매핑시킬 수 있고, 스테레오 BGO인 경우, 멀티채널 중 좌측 채널(L) 및 우측 채널(R)에 각각 렌더링할 수 있다. 이와 같이 렌더링하기 위해서는 멀티채널 정보(MI) 중에서 여러 가지 트리 구조에 대응하는 공간 파라미터를 생성해야하는 바, 이에 대한 구체적인 설명은 도 9, 도 10, 및 도 11를 참조하면서 설명하고자 한다.
도 9는 5-1-51 트리 구조를 기반으로, 도 10는 5-1-52 트리 구조를 기반으로 모노 백그라운드 오브젝트(BGO) 신호를 출력하는 개념을 설명하기 위한 도면이다. 도 9를 참조하면, 멀티채널 디코더(260B)에서 모노 입력을 5.1 채널로 업믹싱하기 위한 제1 트리 구조인 5-1-51 트리 구조가 도시되어 있다. 이러한 5-1-51 configuration에서 모노 BGO(M0)을 센터 채널(C)로 매핑하기 위해서 각 채널분할모듈(OTT)과 그에 대응하는 채널간 레벨 차이(CLD)를 설정할 수 있다. 예를 들어, OTT0에 대응되는 채널간 레벨 차이(CLD0)를 최대값(+150dB)로 설정하여 입력채널의 레벨이 모두 OTT0의 두 개의 출력 신호 중 위쪽 신호(즉, OTT1에 입력되는 채널)에 매핑되도록 한다. 이와 유사한 원리로, CLD1는 -150dB로 설정하여 모두 아래 출력에 매핑되도록하고, CLD4를 +150dB로 설정하면, 5-1-51 트리 구조에서 모노의 BGO를 모두 센터 채널에 자동적으로 매핑되도록 할 수 있다. 나머지 CLD들(CLD3, CLD2)은 임의의 값을 설정해도 된다.
도 10는 모노 입력을 5.1 채널로 업믹싱하기 위한 제2 트리 구조인 5-1-52 트리 구조를 보여주고 있다. 5-1-51 트리 구조에서와 마찬가지 방식으로 채널 레벨 차이값을 설정할 수 있다. 즉, 모노 BGO를 센터 채널(C)로 출력되도록 하기 위해서, CLD0, CLD1를 -150dB로 설정하고 CLD2를 150dB로 설정하는 것이다. 나머지 CLD들(CLD3, CLD2)은 임의의 값으로 설정할 수 있다.
도 11는 5-2-5 트리 구조를 기반으로 스테레오 백그라운드 오브젝트(BGO) 신호를 출력하는 개념을 설명하기 위한 도면이다. 도 11를 참조하면, 스테레오 입력을 5.1 채널로 업믹싱하기 위한 트리 구조인 5-2-5 configuration이 도시되어 있다. 도 11를 참조하면, TTT0 모듈의 TTT 파라미터는 [L, R 0]의 출력을 갖도록 결정될 수 있다. 그리고 CLD2 및 CLD1는 각각 +150dB으로 설정하여, 좌측 채널(L) 및 우 측 채널(R)로 매핑되도록 할 수 있다. OTT0에는 무시가능한 레벨의 신호만이 입력되기 때문에 CLD0는 임의의 값이 될 수 있다.
2. 사용자 의도에 따른 BGO 렌더링
출력 모드에 따른 자동 BGO렌더링의 경우는, 모노 BGO의 경우 센터 채널에, 스테레오 BGO의 경우 좌측 채널 및 우측 채널에 자동적으로 매핑되도록 설정하는 것이다. 그러나, 사용자의 의도에 따라서 모노/스테레오 BGO를 렌더링되도록 할 수도 있다. 이때 BGO 렌더링을 위한 사용자의 제어는 믹스 정보(MXI)로서 입력될 수 있다.
예를 들어, 사용자의 제어에 따라서, 모노 BGO를 좌측 채널 및 우측 채널에 모두 같은 레벨로 렌더링 되도록 할 수 있다. 이를 위해, 도 9에 도시된 5-1-51 트리 구조를 이용하는 경우, CLD0, CLD1의 값을 +150Db로 하고, CLD3의 값을 0으로 설정할 수 있다. 만약에 사용자의 제어에 따라서, 모노 BGO를 5.1 채널에 모두 동일한 레벨로 출력하는 경우, CLD0 부터 CLD4를 모두 -2 ~ 2dB의 값으로 설정할 수 있다.
일반적으로, 앞서 설명한 방식에 따르면, 다음과 같이 수학식을 통해서 임의의 CLD값을 사용자의 의도에 따라서 설정할 수 있다.
[수학식 1]
Figure 112009075129614-PAT00001
여기서, l은 타임슬롯, m은 하이브리드 서브밴드 인덱스, k는 OTT 박스의 인덱스,
Figure 112009075129614-PAT00002
은 위쪽 경로로 원하는 분산 량(the desired distribution amount to upper path),
Figure 112009075129614-PAT00003
은 the desired distribution amount to lower path.
도 12은 솔로 모드인 경우, 포어그라운드 오브젝트(FGO) 신호를 추출하는 디코더의 일 예이다. 도 12을 참조하면, 도 3에 도시된 디코더(300)와 동일명칭의 구성요소를 포함한다. 도 6, 도 7, 도 8에 도시된 디코더(200A.1, 200A.2, 200B)는 BGO를 출력하는 가라오케 모드인데 비해, 도 12에 도시된 디코더(200C)는 하나 이상의 FGO를 출력하는 솔로 모드(또는 아카펠라 모드)에 해당한다. 즉, 렌더링 유닛(224C)는 다운믹스 프로세싱 정보(DPI)에 따라서, 백그라운드 오브젝트(BGO)를 모두 억압하고 FGO만을 출력하는 데, 출력 모드가 3채널 이상인 경우 멀티채널 디코더(260C)가 활성화되고, 정보 생성 유닛(240C)는 FGO의 업믹싱을 위한 멀티채널 정보(MI)를 생성한다.
이 경우, 하나 이상의 FGO를 멀티채널에 어떻게 매핑시킬 것인지를 멀티채널 정보(MI) 중 CLD와 같이 공간 파라미터를 이용하여 설정할 수 있다. 만약, 하나 의 FGO가 멀티채널 디코더(260C)에 입력되는 경우, 다음 수학식에 의해, 미리 설정된 정보 또는 사용자의 의도에 따라서 CLD값이 정해질 수 있다.
[수학식 2]
Figure 112009075129614-PAT00004
여기서, l은 타임슬롯, m은 하이브리드 서브밴드 인덱스, k는 OTT 박스의 인덱스,
Figure 112009075129614-PAT00005
은 위쪽 경로로 원하는 분산 량(the desired distribution amount to upper path),
Figure 112009075129614-PAT00006
은 the desired distribution amount to lower path.
만약에 싱글 FGO가 아니라 멀티 FGO인 경우에는, 다음 수학식과 같이 CLD가 결정될 수 있다.
[수학식 3]
Figure 112009075129614-PAT00007
여기서, l은 타임슬롯, m은 하이브리드 서브밴드 인덱스, k는 OTT 박스의 인덱스, i는 멀티 FGO의 오브젝트 인덱스,
Figure 112009075129614-PAT00008
은 i번째 FGO에 대해 위쪽 경로로 원하는 분산 량(the desired distribution amount to upper path),
Figure 112009075129614-PAT00009
은 i 번째 FOG에 대해 the desired distribution amount to lower path, OLDi는 i번째 FGO에 대한 오브젝트 레벨 차이.
도 13은 솔로 모드인 경우, 둘 이상의 포어그라운드 오브젝트(FGO) 신호를 추출하는 디코더의 일 예이다. 도 13을 참조하면, 디코더(200D)는 도 3에 도시된 디코더(200)의 동일명칭의 구성요소를 포함하고 있고 유사한 기능을 수행한다. 다만, 추출 유닛(222D)이 다운믹스로부터 둘 이상의 FGO를 추출한다. 이때, 제1 FGO(FGO1) 및 제2 FGO(FGO2)는 모두 완전히 복원된다. 그런 다음 렌더링 유닛(224D)에서 BGO가 완전히 억압되고 둘 이상의 FGO가 출력되는 솔로 모드가 수행된다.
둘 이상의 FGO 중 제1 FGO(FGO1)이 모노이고, 제2 FGO(FGO2)가 스트레오인 경우를 가정할 수 있는데, 사용자가 모노 FGO(FGO1)를 5.1 채널의 센터 채널로, 스테레오 FGO(FGO2)를 5.1채널의 좌측 채널 및 우측 채널로 렌더링하는 경우, 렌더링 유닛(224D)에서 바로 FGO가 출력되지 않고 멀티채널 디코더(260D)가 활성화된다.
렌더링 유닛(224D)은 둘 이상의 FGO(FGO1 , FGO2)을 결합하여 결합된 FGO(FGOC)을 생성한다. 이때, 결합된 FGO(FGOC)는 다음과 같은 수학식에 의해 생성될 수 있다.
[수학식 4]
L = sum (mi * FGOi)
R = sum (ni * FGOi)
여기서,mi, ni 은 좌측 및 우측 채널 각각으로 매핑되는 i번째 FOG에 대한 믹싱 게인.
이 결합된 FGO를 생성하는 과정은 시간 도메인 또는 서브 밴드 도메인에서 수행될 수 있다.
OTT-1 또는 TTT-1 모듈을 통해 상기와 같이 결합된 FGO를 생성하는 과정에 있어서, 레지듀얼(residualC)을 추출하여 멀티채널 디코더(260D)에 전달할 수 있다. 이 레지듀얼(residualC)은 독립적으로 멀티채널 디코더(260D)에 전달될 수 있지만, 정보 생성 유닛(240D)에서 멀티채널 정보(MI) 비트스트림의 스킴에 따라서 인코딩 된 후 멀티채널 디코더(260D)에 전달될 수도 있다.
그러면 멀티채널 디코더(260D)는 상기 레지듀얼(residualC)을 이용함으로써 결합된 FGO(FGOC)로부터 둘 이상의 FGO(FGO1, FGO2)를 완전하게 복원할 수 있다. 기존의 멀티채널 디코더의 TTT(Two-To-Three) 모듈은 불완전하여 FGO들(FGO1 , FGO2)이 서로 완전히 분리되지 않을 수 있지만, 본원에서는 상기 레지듀얼을 사용함으로써, 완전히 분리되지 않아서 발생되는 디그레이션을 방지할 수 있다.
본 발명에 따른 오디오 신호 처리 장치는 다양한 제품에 포함되어 이용될 수 있다. 이러한 제품은 크게 스탠드 얼론(stand alone) 군과 포터블(portable) 군으 로 나뉠 수 있는데, 스탠드 얼론군은 티비, 모니터, 셋탑 박스 등을 포함할 수 있고, 포터블군은 PMP, 휴대폰, 네비게이션 등을 포함할 수 있다.
도 14는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계를 보여주는 도면이다. 우선 도 14를 참조하면, 유무선 통신부(310)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부(310)는 유선통신부(310A), 적외선통신부(310B), 블루투스부(310C), 무선랜통신부(310D) 중 하나 이상을 포함할 수 있다.
사용자 인증부는(320)는 사용자 정보를 입력 받아서 사용자 인증을 수행하는 것으로서 지문인식부(320A), 홍채인식부(320B), 얼굴인식부(320C), 및 음성인식부(320D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입력받아서, 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치여부를 판단하여 사용자 인증을 수행할 수 있다.
입력부(330)는 사용자가 여러 종류의 명령을 입력하기 위한 입력장치로서, 키패드부(330A), 터치패드부(330B), 리모컨부(330C) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
신호 코딩 유닛(340)는 유무선 통신부(310)를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력한다. 오디오 신호 처리 장치(345)를 포함하는데, 이는 앞서 설명한 본 발명의 실시예(즉, 인코딩 측(100) 및/또는 디코딩 측(200))에 해당하는 것으로서, 이와 같이 오디오 처리 장치(345) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부(350)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부(340)와 출력부(360)의 모든 프로세스를 제어한다. 출력부(360)는 신호 디코딩부(340)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부(360A) 및 디스플레이부(360B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
도 15는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도이다. 도 15는 도 14에서 도시된 제품에 해당하는 단말 및 서버와의 관계를 도시한 것으로서, 도 15의 (A)를 참조하면, 제1 단말(300.1) 및 제2 단말(300.2)이 각 단말들은 유무선 통신부를 통해서 데이터 내지 비트스트림을 양방향으로 통신할 수 있음을 알 수 있다. 도 15의 (B)를 참조하면, 서버(500) 및 제1 단말(300.1) 또한 서로 유무선 통신을 수행할 수 있음을 알 수 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생 성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 발명은 오디오 신호를 처리하고 출력하는 데 적용될 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성도.
도 2는 오브젝트 인코더(120A, 120B)에 포함되는 NTT 모듈 및 NTO 모듈의 구성도.
도 3는 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더의 구성도.
도 4는 본 발명의 실시예에 따른 오디오 신호 처리 방법의 순서도.
도 5는 추출 유닛(220)에 포함되는 OTN 모듈 또는 ONTT 모듈의 구성도.
도 6 및 도 7은 가라오케 모드인 경우, 멀티채널 백그라운드 오브젝트(MBO) 신호를 추출하는 디코더의 제1 예 및 제2 예.
도 8은 가라오케 모드인 경우, 모노/스테레오 백그라운드 오브젝트(BGO) 신호를 추출하는 디코더의 일 예.
도 9는 5-1-51 트리 구조를 기반으로 모노 백그라운드 오브젝트(BGO) 신호를 출력하는 개념을 설명하기 위한 도면.
도 10는 5-1-52 트리 구조를 기반으로 모노 백그라운드 오브젝트(BGO) 신호를 출력하는 개념을 설명하기 위한 도면.
도 11는 5-2-5 트리 구조를 기반으로 스테레오 백그라운드 오브젝트(BGO) 신호를 출력하는 개념을 설명하기 위한 도면.
도 12은 솔로 모드인 경우, 포어그라운드 오브젝트(FGO) 신호를 추출하는 디코더의 일 예.
도 13은 솔로 모드인 경우, 둘 이상의 포어그라운드 오브젝트(FGO) 신호를 추출하는 디코더의 일 예.
도 14은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적인 구성도.
도 15은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도.

Claims (11)

  1. 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 단계;
    백그라운드-오브젝트 신호 및 포어그라운드-오브젝트 신호 중 하나 이상을 상기 다운믹스 신호로부터 추출하는 단계;
    상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하는 단계;
    상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 단계; 및
    상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 단계를 포함하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 백그라운드-오브젝트 신호 및 상기 포어그라운드-오브젝트 신호 중 하나 이상의 상기 오브젝트 정보를 더 이용하여 추출되는 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제 1 항에 있어서,
    상기 백그라운드-오브젝트 신호는 모노 신호 또는 스테레오 신호 중 하나에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 프로세싱된 다운믹스 신호는 시간 도메인의 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 멀티채널 정보를 생성하는 단계; 및,
    상기 멀티채널 정보 및 상기 프로세싱된 다운믹스 신호를 이용하여 멀티채널 신호를 생성하는 단계를 더 포함하는 오디오 신호 처리 방법.
  6. 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 멀티플렉서;
    백그라운드-오브젝트 신호 및 포어그라운드-오브젝트 신호 중 하나 이상을 상기 다운믹스 신호로부터 추출하는 추출 유닛;
    상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하고, 상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 정보 생성 유닛; 및
    상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포 어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 렌더링 유닛을 포함하는 오디오 신호 처리 장치.
  7. 제 6 항에 있어서,
    상기 백그라운드-오브젝트 신호 및 상기 포어그라운드-오브젝트 신호 중 하나 이상의 상기 오브젝트 정보를 더 이용하여 추출되는 것을 특징으로 하는 오디오 신호 처리 장치.
  8. 제 6 항에 있어서,
    상기 백그라운드-오브젝트 신호는 모노 신호 또는 스테레오 신호 중 하나에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
  9. 제 6 항에 있어서,
    상기 프로세싱된 다운믹스 신호는 시간 도메인의 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
  10. 제 6 항에 있어서,
    상기 멀티채널 정보 및 상기 프로세싱된 다운믹스 신호를 이용하여 멀티채널 신호를 생성하는 멀티채널 디코더를 더 포함하고,
    상기 멀티채널 정보는 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 생성된 것임을 특징으로 하는 오디오 신호 처리 장치.
  11. 다운믹스 신호, 레지듀얼 신호 및 오브젝트 정보를 수신하는 단계;
    백그라운드-오브젝트 신호 및 포어그라운드-오브젝트 신호 중 하나 이상을 상기 다운믹스 신호로부터 추출하는 단계;
    상기 백그라운드-오브젝트 신호를 대한 게인 제어 정보를 포함하는 믹스 정보를 수신하는 단계;
    상기 오브젝트 정보 및 상기 믹스 정보를 근거로 다운믹스 프로세싱 정보를 생성하는 단계; 및
    상기 다운믹스 프로세싱 정보를 상기 백그라운드-오브젝트 신호 및 상기 포어그라운드 오브젝트 신호 중 하나 이상에 대해 적용함으로써, 상기 게인 제어 정보에 대응하는 조정 게인이 적용된 보정 백그라운드-오브젝트 신호를 포함하는 프로세싱된 다운믹스 신호를 생성하는 단계를 포함하는 동작들을, 프로세서에 의해 실행될 때, 상기 프로세서가 수행하도록 하는 명령이 저장되어 있는 컴퓨터로 읽을 수 있는 저장 매체.
KR1020090119980A 2008-12-05 2009-12-04 오디오 신호 처리 방법 및 장치 KR20100065121A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP09015146A EP2194526A1 (en) 2008-12-05 2009-12-07 A method and apparatus for processing an audio signal
PCT/KR2009/007265 WO2010064877A2 (en) 2008-12-05 2009-12-07 A method and an apparatus for processing an audio signal
CN2009801490217A CN102239520A (zh) 2008-12-05 2009-12-07 用于处理音频信号的方法和装置
US12/632,334 US8670575B2 (en) 2008-12-05 2009-12-07 Method and an apparatus for processing an audio signal
US14/178,096 US9502043B2 (en) 2008-12-05 2014-02-11 Method and an apparatus for processing an audio signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12005708P 2008-12-05 2008-12-05
US61/120,057 2008-12-05

Publications (1)

Publication Number Publication Date
KR20100065121A true KR20100065121A (ko) 2010-06-15

Family

ID=42364598

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090119980A KR20100065121A (ko) 2008-12-05 2009-12-04 오디오 신호 처리 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20100065121A (ko)
CN (1) CN102239520A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015152661A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 오디오 오브젝트를 렌더링하는 방법 및 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9774973B2 (en) 2012-12-04 2017-09-26 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
MX2008012439A (es) * 2006-11-24 2008-10-10 Lg Electronics Inc Metodo de codificacion y decodificacion de señal de audio basada en objetos y aparato para lo mismo.
CN101553868B (zh) * 2006-12-07 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015152661A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 오디오 오브젝트를 렌더링하는 방법 및 장치

Also Published As

Publication number Publication date
CN102239520A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
US9542951B2 (en) Method and an apparatus for processing an audio signal
KR101147780B1 (ko) 오디오 신호 처리 방법 및 장치
KR101221916B1 (ko) 오디오 신호 처리 방법 및 장치
JP5238706B2 (ja) オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
CA2673624C (en) Apparatus and method for multi-channel parameter transformation
KR101325402B1 (ko) 오브젝트 기반 메타데이터를 이용한 오디오 출력 신호를 생성하는 장치 및 방법
KR101506837B1 (ko) 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
TWI545562B (zh) 用於提升3d音訊被導引降混性能之裝置、系統及方法
US9502043B2 (en) Method and an apparatus for processing an audio signal
US10176812B2 (en) Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
KR20100065121A (ko) 오디오 신호 처리 방법 및 장치
KR101187075B1 (ko) 오디오 신호 처리 방법 및 장치
AU2013200578B2 (en) Apparatus and method for generating audio output signals using object based metadata

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20111223

Effective date: 20130328