KR101187075B1 - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR101187075B1
KR101187075B1 KR1020100004817A KR20100004817A KR101187075B1 KR 101187075 B1 KR101187075 B1 KR 101187075B1 KR 1020100004817 A KR1020100004817 A KR 1020100004817A KR 20100004817 A KR20100004817 A KR 20100004817A KR 101187075 B1 KR101187075 B1 KR 101187075B1
Authority
KR
South Korea
Prior art keywords
information
signal
multichannel
spatial
spatial information
Prior art date
Application number
KR1020100004817A
Other languages
English (en)
Other versions
KR20100085861A (ko
Inventor
오현오
정양원
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to CN2010800050570A priority Critical patent/CN102292768B/zh
Priority to PCT/KR2010/000362 priority patent/WO2010085083A2/en
Priority to US12/690,837 priority patent/US8620008B2/en
Priority to EP10000533.9A priority patent/EP2209328B1/en
Publication of KR20100085861A publication Critical patent/KR20100085861A/ko
Application granted granted Critical
Publication of KR101187075B1 publication Critical patent/KR101187075B1/ko
Priority to US14/137,556 priority patent/US9542951B2/en
Priority to US14/137,186 priority patent/US9484039B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은, 오디오 신호 처리 방법 및 장치로서, 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계; 상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 단계; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 단계; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 단계; 및 상기 제1 공간 정보 및 제2 공간 정보 중 하나 이상을 전송하는 단계를 포함하고, 상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되는 것이고, 상기 제2 공간 정보는 상기 오브젝트 정보 및 믹스 정보를 이용하여 생성되는 오디오 신호 처리 방법을 개시한다.

Description

오디오 신호 처리 방법 및 장치{A method for processing an audio signal and an apparatus for processing an audio signal}
본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.
일반적으로, 다수 개의 오브젝트 신호를 모노 또는 스테레오 신호로 다운믹스하는 과정에 있어서, 각각의 오브젝트 신호로부터 파라미터들이 추출된다. 이러한 파라미터들은 디코더에서 사용될 수 있는 데, 각각의 오브젝들의 패닝(panning)과 게인(gain)은 유저의 선택에 의해 컨트롤 될 수 있다.
각각의 오브젝트 시그널을 제어하기 위해서는, 다운믹스에 포함되어 있는 각각의 소스들이 적절히 포지셔닝 또는 패닝되어야 한다.
또한, 채널 기반(channel-oriented) 디코딩 방식으로 하향 호환성을 갖기 위해서는, 오브젝트 파라미터는 업믹싱을 위한 멀티 채널 파라미터로 유연하게 변환되어야 한다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 오브젝트 신호의 게인과 패닝을 컨트롤하여, 모노 신호, 스테레오 신호, 및 멀티채널 신호로 출력할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 그 목적이 있다.
본 발명의 또 다른 목적은, 오브젝트 기반의 일반 오브젝트들과, 채널 기반의 오브젝트(멀티채널 오브젝트 신호 또는 멀티채널 백그라운드 오브젝트)가 모두 다운믹스 신호에 포함되어 있을 때, 오브젝트 신호를 컨트롤하기 위한 오브젝트 정보뿐만 아니라 채널 기반의 오브젝트 신호를 업믹싱하기 위한 공간 정보까지 비트스트림으로부터 획득할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 다운믹스 신호에 포함되어 있는 다수 개의 오브젝트 중 어느 오브젝트가 멀티채널 오브젝트 신호인지를 식별할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 다운믹스 신호에 스테레오로 다운믹스된 멀티채널 오브젝트 신호가 포함되어 있는 경우, 어떤 오브젝트가 멀티채널 오브젝트 신호의 좌측 채널인지 여부를 식별할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 보컬 신호와 같은 노멀 오브젝트와 배경음악과 같은 멀티채널 오브젝트 신호의 게인을 큰 폭으로 조절하는 경우에도 음질의 왜곡을 발생시키지 않는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명은 상기와 같은 목적을 달성하기 위해, 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계; 상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 단계; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 단계; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 단계; 및 상기 제1 공간 정보 및 제2 공간 정보 중 하나 이상을 전송하는 단계를 포함하고, 상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되는 것이고, 상기 제2 공간 정보는 상기 오브젝트 정보 및 믹스 정보를 이용하여 생성되는 오디오 신호 처리 방법을 제공한다.
본 발명에 따르면, 상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나 이상은 상기 멀티채널 오브젝트 신호가 억압되는 지 여부를 지시하는 모드 정보에 따라 전송되는 것일 수 있다.
본 발명에 따르면, 상기 멀티채널 오브젝트 신호가 억압되지 않는 것을 상기 모드 정보가 지시하는 경우, 상기 제1 공간 정보가 전송되고, 상기 멀티채널 오브젝트 신호가 억압되는 것을 상기 모드 정보가 지시하는 경우, 상기 제2 공간 정보가 전송되는 것일 수 있다.
본 발명에 따르면, 상기 제1 공간정보가 전송되는 경우, 제1 공간 정보 및 상기 멀티채널 오브젝트 신호를 이용하여 멀티채널 신호를 생성하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 상기 제2 공간 정보가 생성되는 경우, 상기 제2 공간 정보 및 상기 노멀 오브젝트 신호를 이용하여 출력 신호를 생성하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 상기 제2 공간 정보가 전송되는 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 다운믹스 프로세싱 정보를 생성하는 단계; 상기 다운믹스 프로세싱 정보를 이용하여 상기 노멀 오브젝트 신호를 프로세싱함으로써 프로세싱된 다운믹스 신호를 생성하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 상기 제1 공간 정보는 공간 컨피그레이션 정보 및 공간 프레임 데이터를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하고, 상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 수신 유닛; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 확장 타입 식별자 추출 파트; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 제1 공간 정보 추출 파트; 및, 상기 제1 공간 정보 및 제2 공간 정보 중 하나 이상을 전송하는 멀티채널 오브젝트 트랜스코더를 포함하고, 상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되는 것이고, 상기 제2 공간 정보는 상기 오브젝트 정보 및 믹스 정보를 이용하여 생성되는 오디오 신호 처리 장치가 제공된다.
본 발명에 따르면, 상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나 이상은 상기 멀티채널 오브젝트가 억압되는 지 여부를 지시하는 모드 정보에 따라 전송되는 것일 수 있다.
본 발명에 따르면, 상기 멀티채널 오브젝트 신호가 억압되지 않는 것을 상기 모드 정보가 지시하는 경우, 상기 제1 공간 정보가 전송되고, 상기 멀티채널 오브젝트 신호가 억압되는 것을 상기 모드 정보가 지시하는 경우, 상기 제2 공간 정보가 전송되는 것일 수 있다.
본 발명에 따르면, 상기 제1 공간정보가 전송되는 경우, 제1 공간 정보 및 상기 멀티채널 오브젝트 신호를 이용하여 멀티채널 신호를 생성하는 멀티채널 디코더를 더 포함할 수 있다.
본 발명에 따르면, 상기 제2 공간 정보가 생성되는 경우, 상기 제2 공간 정보 및 상기 노멀 오브젝트 신호를 이용하여 출력 신호를 생성하는 멀티채널 디코더를 더 포함할 수 있다.
본 발명에 따르면, 상기 멀티채널 트랜스코더는,상기 제2 공간 정보가 전송되는 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 다운믹스 프로세싱 정보를 생성하는 정보 생성 파트; 및 상기 다운믹스 프로세싱 정보를 이용하여 상기 노멀 오브젝트 신호를 프로세싱함으로써 프로세싱된 다운믹스 신호를 생성하는 다운믹스 프로세싱 파트를 포함할 수 있다.
본 발명에 따르면, 상기 제1 공간 정보는 공간 컨피그레이션 정보 및 공간 프레임 데이터를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계; 상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 단계; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 단계; 상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 단계; 및 상기 제1 공간 정보 및 제2 공간 정보 중 하나 이상을 전송하는 단계를 포함하고, 상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되는 것이고, 상기 제2 공간 정보는 상기 오브젝트 정보 및 믹스 정보를 이용하여 생성되는 것을 특징으로 하는, 동작들을, 프로세서에 의해 실행될 때, 상기 프로세서가 수행하도록 하는 명령들이 저장되어 있는 컴퓨터로 읽을 수 있는 매체가 제공된다.
본 발명은 다음과 같은 효과와 이점을 제공한다.
우선, 오브젝트 신호의 게인과 패닝을 제한없이 컨트롤 할 수 있다.
둘째, 유저의 선택을 기반으로 오브젝트 신호의 게인과 패닝을 컨트롤할 수 있다.
셋째, 모노 또는 스테레오로 다운믹스된 멀티채널 오브젝트 신호가 다운믹스 신호에 포함되어 있을 경우, 멀티채널 오브젝트 신호에 대응하는 공간 정보를 획득함으로써, 모노 또는 스테레오의 멀티채널 오브젝트 신호를 멀티채널 신호로 업믹싱할 수 있다.
넸째, 보컬이나 배경 음악 중 하나를 완전하게 억압하는 경우에도, 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성도.
도 2는 도 1의 멀티플렉서(130)의 세부 구성도의 일 예.
도 3은 확장 컨피그레이션에 대한 신택스의 일 예.
도 4는 확장 타입 식별자가 x인 경우, 공간 컨피그레이션 정보에 대한 신택스의 예들.
도 5는 확장 타입 식별자가 x인 경우, 공간 프레임 데이터에 대한 신택스의 일 예.
도 6은 확장 타입 식별자가 x인 경우, 공간 프레임 데이터에 대한 신택스의 다른 예.
도 7은 공간 컨피그레이션 정보에 대한 신택스의 일 예.
도 8은 공간 프레임 데이터에 대한 신택스의 일 예.
도 9는 도 1의 멀티플렉서(130)의 세부 구성도의 다른 예.
도 10은 확장 타입 식별자가 y인 경우, 커플링된 오브젝트 정보에 대한 신택스의 일 예.
도 11은 커플링된 오브젝트 정보에 대한 신택스의 일 예.
도 12는 커플링된 오브젝트 정보에 대한 신택스의 다른 예들.
도 13은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더의 구성도.
도 14는 본 발명의 실시예에 따른 오디오 신호 처리 방법 중 디코딩 동작에 대한 순서도.
도 15은 도 13의 디멀티플렉서(210)의 세부 구성도의 일 예.
도 16은 도 13의 디멀티플렉서(210)의 세부 구성도의 다른 예.
도 17은 도 13의 MBO 트랜스코더(220)의 세부 구성도의 일 예.
도 18은 도 13의 MBO 트랜스코더(220)의 세부 구성도의 다른 예.
도 19는 도 17 및 18의 추출 유닛(222)의 세부 구성도의 예들.
도 20은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적인 구성도.
도 21은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.  이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성을 보여주는 도면이다. 도 1을 참조하면, 인코더(100)는 공간 인코더(110), 오브젝트 인코더(120), 및 멀티플렉서(130)를 포함한다.
공간 인코더(110)는 멀티채널 소스 신호(또는 멀티채널 사운드 소스)를 채널 기반의 방식으로 다운믹스함으로써, 모노 또는 스테레오로 다운믹스된 멀티채널 오브젝트 신호(또는 멀티채널 백그라운드 오브젝트)(이하, 멀티채널 오브젝트)(MBO)를 생성한다. 여기서 멀티채널 소스 신호란, 3개 이상의 채널로 구성된 사운드로서, 이를 테면, 하나의 악기 사운드를 5.1 채널 마이크로폰으로 수집한 것일 수도 있고, 오케스트라와 같이 다수 개의 악기 사운드 및 보컬 사운드를 5.1 채널 마이크로폰으로 획득한 것일 수도 있다. 물론, 모노 또는 스테레오 마이크로폰을 통해 입력된 신호에 다양한 프로세싱을 하여 5.1 채널로 업믹싱한 채널에 해당할 수도 있다.
이러한 멀티채널 소스 신호를 멀티채널 오브젝트(MBO)라고 할 수도 있고, 이 멀티채널 소스 신호가 모노 또는 스테레오로 다운믹스된 오브젝트 신호를 멀티채널 오브젝트(MBO)라고 지칭할 수도 있는 바, 본원 명세서에서는 후자를 따르고자 한다.
여기서 생성된 멀티채널 오브젝트(MBO)는 오브젝트로서 오브젝트 인코더(120)에 입력되는 데, 멀티채널 오브젝트(MBO)가 모노 채널인 경우, 하나의 오브젝트로서 입력되고, 스테레오 채널인 경우 좌측 멀티채널 오브젝트, 우측 멀티채널 오브젝트 즉, 두 개의 오브젝트로서 입력된다.
이 다운믹싱 과정에서 공간 정보(spatial information)를 추출한다. 공간 정보란, 다운믹스(DMX)를 멀티 채널로 업믹싱하기 위한 정보로서, 채널 레벨 정보(channel level information), 채널 상관 정보(channel correlation information) 등을 포함할 수 있다. 이 공간 정보는 후자 디코더에서 생성되는 제2 공간 정보와 구분하기 위해 제1 공간 정보로 지칭하고자 한다. 제1 공간 정보는 멀티플렉서(130)에 입력된다.
오브젝트 인코더(120)는 멀티채널 오브젝트(MBO)와 노멀 오브젝트 신호를 오브젝트 기반 방식에 따라서 다운믹스함으로써 다운믹스 신호(DMX)를 생성한다. 오브젝트들을 다운믹스함으로써 다운믹스 신호(DMX)뿐만 아니라 레지듀얼을 더 생성할 수도 있으나, 본 발명은 이에 한정되지 아니한다.
그리고 이 다운믹스 과정에서 오브젝트 정보가 생성되는 데, 오브젝트 정보(OI)는 다운믹스 신호 내에 포함되어 있는 오브젝트들에 관한 정보이자, 다운믹스 신호(DMX)로부터 다수 개의 오브젝트 신호를 생성하기 위해 필요한 정보이다. 오브젝트 정보는 오브젝트 레벨 정보(object level information), 오브젝트 상관 정보(object correlation information) 등을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다. 나아가, 다운믹스 게인 정보(DMG: DownMix Gain), 다운믹스 채널 레벨 차이(DCLD: Downmix Channel Level Difference)이 오브젝트 정보에 더 포함될 수 있다. 다운믹스 게인 정보(DMG)란 다운믹싱되기 전에 각 오브젝트에 적용된 게인을 나타내고, 다운믹스 채널 레벨 차이(DCLD)란, 다운믹스 신호가 스테레오인 경우 각 오브젝트가 좌측 채널 및 우측 채널에 적용된 비율을 나타낸다. 여기서 생성된 오브젝트 정보는 멀티플렉서(130)로 입력된다.
한편, 오브젝트 인코더(120)는 스테레오 오브젝트 정보를 더 생성하여 멀티플렉서(130)에 전달할 수 있다. 여기서 스테레오 오브젝트란 하나 또는 둘 이상의 음원이 스테레오 마이크로 입력된 오브젝트 신호를 일컫는다.
도 1에는 공간 인코더(110) 및 오브젝트 인코더(120)가 서로 분리되어 도시되어 있지만, 오브젝트 인코더(120)가 공간 인코더(110)을 기능까지 포함함으로써, 멀티채널 사운드소스 및 노멀 오브젝트 신호를 다운믹스함으로써 공간 정보 및 오브젝트 정보를 생성할 수도 있다.
멀티플렉서(130)는 오브젝트 인코더(120)에서 생성된 오브젝트 정보를 이용하여 비트스트림을 생성하는 데, 다운믹스 신호(DMX)에 멀티채널 오브젝트(MBO)가 존재하는 경우, 상기 오브젝트 정보뿐만 아니라, 공간 인코더(110)에서 생성된 제1 공간 정보까지 멀티플렉싱함으로써 비트스트림에 포함시킨다.
여기서 멀티플렉싱하는 방식에는 두 가지 방식이 있는데, 첫 번째 방식은 오브젝트 정보 비트스트림에 대응하는 신택스가 제1 공간 정보를 포함하는 것으로 정의하는 것이고, 두 번째 방식은 오브젝트 정보 비트스트림 및 공간 정보 비트스트림의 전송 메커니즘을 새롭게 만들어내는 것이다.
상기 첫 번째 방식에 대해서 추후 도 3 내지 도8과 함께 보다 구체적으로 설명하고자 한다.
한편 멀티플렉서(130)는 커플링된 오브젝트 정보를 생성하여 비트스트림에 포함시킬 수 있다. 여기서 커플링된 오브젝트 정보란, 오브젝트 인코더(120)가 다운믹스한 둘 이상의 오브젝트 신호들 중에서, 스테레오 오브젝트 또는 멀티채널 오브젝트가 존재하는지 아니면, 노멀 오브젝트만 존재하는지 등에 대한 정보이다. 만약 제1 공간 정보가 있는 경우 멀티채널 오브젝트가 존재하는 것이다. 앞서 언급한 바와 같이 오브젝트 인코더(120)로부터 스테레오 오브젝트 정보를 수신한 경우, 스테레오 오브젝트가 존재하는 것이다. 만약 멀티채널 오브젝트 또는 스테레오 오브젝트가 포함된 경우, 커플링된 오브젝트 정보는, 어느 오브젝트가 스테레오 오브젝트(또는 멀티채널 오브젝트)의 좌측 오브젝트 또는 우측 오브젝트인지를 나타내는 정보를 더 포함할 수 있는데, 이에 대해서는 추후 도 10 내지 도 12와 함께 보다 구체적으로 설명하고자 한다.
도 2의 멀티플렉서(130)의 세부 구성도의 일 예를 보여주는 도면이다. 도 2를 참조하면, 멀티플렉서(130)는 오브젝트 정보 삽입 파트(132), 확장 타입 식별자 삽입 파트(134), 및 제1 공간 정보 삽입 파트(136)을 포함한다.
오브젝트 정보 삽입 파트(132)는 오브젝트 인코더(120)로부터 수신한 오브젝트 정보를 신택스에 따라 비트스트림에 삽입한다. 확장 타입 식별자 삽입 파트(134)는 공간 인코더(110)로부터 제1 공간 정보가 수신되는지 여부에 따라서 확장 타입 식별자를 결정하고 이 확장 타입 식별자를 비트스트림에 삽입한다.
도 3은 확장 컨피그레이션에 대한 신택스(SAOCExtensionConfig())의 일 예이다. 도 3의 (A) 행을 참조하면, 확장 영역의 타입을 나타내는 확장 타입 식별자(bsSaocExtType)가 포함되어 있음을 알 수 있다. 여기서 확장 타입 식별자는 확장 영역이 어떤 타입의 정보를 포함하고 있는지에 대한 식별자로서, 구체적으로 비트스트림에 공간 정보가 존재하는지 여부를 나타내는 것이다. 한편, 공간 정보가 존재하는 것은 즉, 다운믹스 신호에 멀티채널 오브젝트(MBO)가 포함된다는 것을 의미하는 것일 수 있기 때문에, 확장 타입 식별자는 다운믹스 신호에 멀티채널 오브젝트(MBO)가 포함되는지 여부를 나타내는 것이기도 한다. 하기 표에 확장 타입 식별자(bsSaocExtType)와 그 의미의 일 예가 나타나 있다.
확장 타입 식별자의 의미의 일 예
확장 타입 식별자
(bsSaocExtType)
의미 확장 프레임 데이터
0 레지듀얼 코딩 데이터 존재
1 프리셋 정보 존재
x MBO 공간 정보 존재
i 메타 데이터 존재하지 않음
여기서, x, i는 임의의 정수
상기 표에 따르면, 확장 타입 식별자가 x(x는 임의의 정수, 바람직하게 15이하의 정수)인 경우 MBO 공간정보가 존재함으로 의미하고, MBO 공간정보가 존재할 경우, 확장 프레임 데이터가 더 포함되어 있음을 의미한다.
여기서 확장 타입 식별자(bsSaocExtType)가 x인 경우, 도 3의 (B)행을 살펴보면 그 x에 대응하는 확장 컨피그 데이터(SAOCExtensionConfigData(x))가 호출된다. 이는 도 4와 함께 설명하고자 한다.
도 4는 확장 타입 식별자가 x인 경우, 공간 컨피그레이션 정보에 대한 신택스의 일 예이고, 도 5 및 도 6은 확장 타입 식별자가 x인 경우, 공간 프레임 데이터에 대한 신택스의 예들이다. 도 4의 테이블 2A를 참조하면, 확장 컨피그 데이터(SAOCExtensionConfigData(x))는 MBO 식별정보(bsMBOIs) 및 공간 컨피그레이션 정보(SpatialSpecificConfig())를 포함한다.
MBO 식별정보는 어떤 오브젝트가 MBO인지를 나타내는 정보로서, 만약 0인 경우, 1번째 오브젝트가 MBO에 해당하고, MBO 식별정보가 4인 경우, 5번째 오브젝트가 MBO에 해당하는 것이다. 상기 MBO가 스테레오(즉 MBO가 2개)일 수도 있는데, 스테레오인지 여부는 공간 컨피그레이션 정보(SpatialSpecificConfig())를 근거로 알 수 있다. 따라서, MBO가 스테레오인 경우, MBO 식별정보에 의해 지정된 오브젝트뿐만 아니라 그 다음 오브젝트도 MBO인 것으로 약속할 수 있다. 예를 들어 MBO 식별정보가 0이고, 공간 컨피그레이션 정보에 따라 MBO가 2개인 경우, 1번째 및 2번째 오브젝트가 MBO에 해당하는 것일 수 있다.
도 4의 테이블 2B를 참조하면, MBO 식별정보(bsMBOIs)가 고정비트가 아니라 가변비트(nBitsMBO)로 포함되어 있음을 알 수 있다. MBO 식별정보는 앞서 언급한 바와 같이 다운믹스 신호에 포함된 오브젝트들 중에서 어떤 오브젝트가 MBO인지를 나타내는 정보이기 때문에, 다운믹스 신호에 포함된 총 오브젝트 신호의 개수를 초과하는 비트가 필요하지 않다. 즉, 총 오브젝트 신호의 개수가 10개일 때, 0~9를 나타내기 위한 비트수(예:4비트)만이 필요하고, 총 오브젝트 신호의 개수가 N개일 때, ceil(log2N) 비트만이 필요하다. 따라서, 고정비트(5비트)로 전송하는 것보다는, 총 오브젝트 수에 따른 가변비트로 전송하면 비트수를 절감할 수 있다.
도 4의 테이블 2C를 참조하면, 앞선 예와 마찬가지로, MBO 식별정보 및 공간 컨피그레이션 정보(SpatialSpecificConfig())를 포함하는 데, 프레임이 헤더에 포함되어 있을 때, 공간 프레임 데이터(SpatialFrame())을 포함한다.
도 5 및 도 6은 확장 타입 식별자가 x인 경우, 공간 프레임 데이터(SpatialFrame())에 대한 신택스의 예들이다. 도 5의 테이블 3A를 참조하면, 확장 타입 식별자가 x인 경우의 확장 프레임 데이터(SAOCExtensionFrame(x))는 공간 프레임 데이터(SpatialFrame())을 포함하는 것을 알 수 있다. 도 5에 나타난 신택스 대신에 도 6이 도시된 바와 같이 신택스가 정의될 수도 있다.
도 6의 테이블 3B.1을 참조하면, 확장 타입 식별자가 x인 경우의 확장 프레임 데이터(SAOCExtensionFrame(x))는 MBO 프레임(MBOFrame())을 포함한다. 테이블3B.2에 나타난 바와 같이 MBO 프레임(MBOFrame())은 공간 프레임 데이터(SpatialFrame())를 포함한다.
도 7은 공간 컨피그레이션 정보에 대한 신택스의 일 예이고, 도 8은 공간 프레임 데이터에 대한 신택스의 일 예이다. 도 7를 참조하면, 앞서 도 4의 테이블 2A 내지 2C에 포함된 공간 컨피그레이션 정보(SpatialSpecConfig())의 구체적인 구성이 나타나 있다. 공간 컨피그레이션 정보는 모노 또는 스테레오 채널을 복수의 채널로 업믹싱하는데 있어서 필요한 컨피그레이션 정보를 포함하고 있다. 우선 샘플링 주파수를 나타내는 샘플링 주파수 인덱스(bsSamplingFrequencyIndex), 프레임의 길이(타임 슬롯의 개수)를 나타내는 프레임 길이 정보(bsFrameLength), 미리 정해진 트리 구조(5-1-51 트리 컨피그, 5-2-5 컨피그, 7-2-7 트리 컨피그 등) 중 하나를 지정하는 정보인 트리 컨피그레이션 정보(bsTreeConfig) 등이 포함되어 있다. 여기서 트리 컨피그레이션 정보를 통해서 MBO가 모노인지 스테레오인지 알 수 있다.
도 8을 참조하면, 앞서 도 4의 테이블 2C, 도 5, 및 도 5의 테이블 3B.2에 포함된 공간 프레임 데이터(SpatiaFrame())의 구체적인 구성이 나타나 있다. 공간 프레임 데이터는 모노 또는 스테레오 채널을 복수의 채널로 업믹싱하는데 필요한 채널 레벨 차이(CLD) 등과 같은 공간 파라미터를 포함하고 있다. 구체적으로, 프레임 정보(Frameinfo()), OTT 정보(OttData() 등이 포함되어 있다. 프레임 정보(Frameinfo())는 파라미터 셋의 개수와, 파라미터 셋이 어느 타임 슬롯에 적용되는지에 대한 정보를 포함하는 프레임 정보를 포함할 수 있다. OTT 정보는 OTT(One-To-Two) 박스에 필요한 채널 레벨 차이(CLD), 채널 상관 정보(channel correlation information)(ICC) 등의 파라미터를 포함할 수 있다.
요컨대, 도 2에 도시된 멀티플렉서(120)는 제1 공간 정보가 존재하는 지 여부에 따라서, MBO의 존재여부를 나타낼 수 있는 확장 프레임 타입을 결정한다. 그리고 확장 프레임 타입이 제1 공간 정보가 존재하는 것을 지시하는 경우, 제1 공간 정보를 비트스트림에 포함시킨다. 제1 공간 정보를 비트스트림에 포함시키기 위한 신택스는 도 3 내지 도 8에 도시된 바와 같이 정의될 수 있다.
도 9는 도 1의 멀티플렉서(130)의 세부 구성도의 다른 예인데, 도 2에 도시된 일 예(130A)에서는, 확장 타입 식별자가 x일 때(즉 MBO가 포함되는 경우) 제1 공간정보를 비트스트림에 포함시키는 데 비해, 도 9에 도시된 다른 예(130B)에서는, 확장 타입 식별자가 y일 때, 커플링된 오브젝트 정보(ObjectCoupledInformation())를 비트스트림에 포함시킨다. 여기서 커플링된 오브젝트 정보란, 오브젝트 인코더(120)가 다운믹스한 둘 이상의 오브젝트 신호들 중에서, 스테레오 오브젝트 또는 멀티채널 오브젝트가 존재하는지 아니면, 노멀 오브젝트만 존재하는지 등에 대한 정보이다.
도 9를 참조하면, 멀티플렉서(130B)는 오브젝트 정보 삽입 파트(132B), 확장 타입 식별자 삽입 파트(134B), 및 커플링된 오브젝트 정보 삽입 파트(136B)를 포함한다. 여기서 오브젝트 정보 삽입 파트(132B)는 도 2에서의 동일 명칭의 구성요소(132A)와 동일한 기능을 수행하므로 구체적인 설명은 생략하고자 한다.
확장 타입 식별자 삽입 파트는 다운믹스(DMX)에 스테레오 오브젝트 또는 멀티채널 오브젝트(MBO)가 존재하는지에 따라서 확장 타입 식별자를 결정하여 비트스트림에 포함시킨다. 그런 다음, 확장 타입 식별자가 스테레오 오브젝트 또는 멀티채널 오브젝트가 존재함을 의미하는 경우(예: y인 경우), 커플링된 오브젝트 정보를 비트스트림에 포함되도록 한다. 여기서 확장 타입 식별자(bsSaocExtType)는 앞서 도 3에 도시된 확장 컨피그레이션에 포함될 수 있다. 하기 표에 확장 타입 식별자(bsSaocExtType)와 그 의미의 일 예가 나타나 있다.
확장 타입 식별자의 의미의 일 예
확장 타입 식별자
(bsSaocExtType)
의미 확장 프레임 데이터
0 레지듀얼 코딩 데이터 존재
1 프리셋 정보 존재
x MBO 공간 정보 존재
y 커플링된 오브젝트 정보 존재하지 않음
여기서 y는 임의의 정수
표 2는 확장 타입 식별자가 y인 경우, 커플링된 오브젝트 정보가 비트스트림에 포함되는 것을 의미하는 것이다. 물론, 앞서 언급된 표 1과 상기 표 2가 병합된 형태도 가능하다.
도 10은 확장 타입 식별자가 y인 경우, 커플링된 오브젝트 정보에 대한 신택스의 일 예이고, 도 11 및 12는 커플링된 오브젝트 정보에 대한 신택스의 예들이다. 도 10을 참조하면, 확장 타입 식별자가 y인 경우(bsSaocExtType가 y), 확장 컨피그 데이터(SAOCExtensionConfigData(y))는 커플링된 오브젝트 정보(ObjectCoupledInformation())를 포함하는 것을 알 수 있다.
도 11를 참조하면 커플링된 오브젝트 정보(ObjectCoupledInformation())는 우선 커플링 오브젝트 식별정보(bsCoupledObject[i][j]), 좌측 채널 정보(bsObjectIsLeft), MBO 정보(bsObjectIsMBO) 등을 포함하고 있다.
커플링 오브젝트 식별정보(bsCoupledObject[i][j])는 어떤 오브젝트가 스테레오 또는 멀티채널 오브젝트 신호의 파트인지를 나타내는 정보이다. 즉, 커플링 오브젝트 식별정보(bsCoupledObject[i][j])가 1인 경우 i번째 오브젝트와 j번째 오브젝트가 서로 커플링이 되어 있다는 것이고, 0인 경우는 서로 관련이 없음을 의미한다. 오브젝트가 총 5개이고, 세 번째와 네 번째의 오브젝트가 커플링되어있을 때 커플링 오브젝트 식별정보(bsCoupledObject[i][j])의 일 예가 다음 표에 나타나 있다.
커플링 오브젝트 식별정보(bsCoupledObject[i][j])의 일 예
bsCoupledObject[i][j] i = 0 i = 1 i = 2 i = 3 i = 4
i = 0 1 0 0 0 0
j = 1 0 1 1 0 0
j = 2 0 1 1 0 0
j = 3 0 0 0 1 0
j = 4 0 0 0 0 1
여기서, 오브젝트는 총 5개, 3번째 오브젝트와 4번째 오브젝트가 커플인 경우
그리고 커플링된 오브젝트에 한해(if (bsCoupledObject[i][j])), 좌측 채널 정보(bsObjectIsLeft), MBO 정보(bsObjectIsMBO)이 포함된다. 좌측 채널 정보(bsObjectIsLeft)는 1인 경우 해당 오브젝트가 스테레오 오브젝트 신호의 좌측 채널에 해당하는 것을 의미하고, 0인 경우 우측 채널에 해당하는 것을 의미한다. MBO 정보(bsObjectIsMBO)가 1인 경우, 해당 오브젝트가 멀티채널 오브젝트(MBO)로부터 생성된 것임을 의미하고, 0인 경우 멀티채널 오브젝트(MBO)가 아님을 의미한다. 도 2과 함께 설명된 예에서는 제1 공간 정보가 포함되는지 여부에 따라서 MBO의 존재를 알 수 있지만, 상기 예에서는 MBO 정보를 통해 오브젝트에 멀티채널 오브젝트가 포함되어 있는지를 알 수 있는 것이다.
한편 도 12를 참조하면, 커플링된 오브젝트 정보의 다른 예가 나타나있다. 커플링된 오브젝트 정보의 다른 예는 오브젝트 타입 정보(bsObjectType), 좌측 채널 정보(bsObjectIsLeft), MBO 정보(bsObjectIsMBO), 및 커플 상대 정보(bsObjectIsCoupled) 등을 포함한다.
여기서 오브젝트 타입 정보(bsObjectType)는 각 오브젝트에 대해서 1인 경우 스테레오 오브젝트(또는 멀티채널 오브젝트)를 나타내고 0인 경우 노멀 오브젝트임을 나타낸다.
오브젝트는 총 5개이고, 3번째 오브젝트와 4번째 오브젝트가 스테레오 오브젝트(또는 멀티채널 오브젝트)이고, 1번째, 2번째, 5번째 오브젝트가 노멀 오브젝트인 경우, 오브젝트 타입정보는 다음과 같다.
오브젝트 타입 정보(bsObjectType)의 일 예
i = 0 i = 1 i = 2 i = 3 i = 4
bsObjectType 0 0 1 1 0
오브젝트는 총 5개이고, 1번째 오브젝트부터 4번째 오브젝트가 스테레오 오브젝트(또는 멀티채널 오브젝트)이고, 5번째 오브젝트만이 노멀 오브젝트인 경우, 오브젝트 타입정보는 다음과 같다.
오브젝트 타입 정보(bsObjectType)의 다른 예
i = 0 i = 1 i = 2 i = 3 i = 4
bsObjectType 1 1 1 1 0
오브젝트 타입 정보가 1인 경우(if (bsObjectType ==1))에 한해서, 도 11에 나타난 바와 같은 좌측 채널 정보(bsObjectIsLeft) 및 MBO 정보(bsObjectIsMBO)가 포함된다. 한편 커플 대상 정보(bsObjectIsCoupled)는 해당 오브젝트가 스테레오일 때 페어 또는 커플을 이루는 대상이 어떤 오브젝트인지를 나타내는 정보이다. 도 12의 테이블 7B.1에 나타난 바와 같이 커플 대상 정보가 고정비트(5비트)로 표현될 때, 앞서 표 4와 같은 경우, 커플 대상 정보는 다음 표 6과 같고, 테이블 5의 경우에는 커플 대상 정보가 다음 표 7과 같이 표현된다.
커플 대상 정보(bsObjectIsCoupled) 의 일 예
i = 0 i = 1 i = 2 i = 3 i = 4
bsObjectType - - 00011 00010 -
커플 대상 정보(bsObjectIsCoupled)의 다른 예
i = 0 i = 1 i = 2 i = 3 i = 4
bsObjectIsCoupled 00001 00000 00011 00010 -
우선, 노멀 오브젝트에 대해서는 커플 대상 정보가 전송되지 않을 알 수 있다.
표 6에 나타난 케이스는, 3번째 오브젝트(i=2)의 커플 대상 정보는 i=3(00011)이므로 4번째 오브젝트(i=3)가 상대로 지정하고 있고, 4번째 오브젝트는 i=2(00010)으로서 3번째 오브젝트(i=2)를 상대로 지정하고 있기 때문에, 서로 하나의 페어를 이루고 있다. 표 7에 나타난 경우는, 1번째 오브젝트와 2번째 오브젝트가 하나의 커플을 이루고 있고, 3번째 오브젝트와 4번째 오브젝트가 다른 커플을 이루고 있음을 알 수 있다.
한편, 커플 대상 정보(bsObjectIsCoupled)는 도 12의 테이블 2B.1에 나타난 바와 같이 고정비트로 나타낼 수도 있지만, 보다 비트수를 절약하기 위해 테이블 7B.2에 나타난 바와 같이 가변 비트로 나타낼 수도 있다. 이는 앞서 도 4와 함께 설명된 MBO 식별정보(MBOIs)를 가변비트로 나타내는 이유 및 원리와 동일하다.
[수학식 1]
nBitsMBO = ceil(log2(bsNumObjects))
bsNumObjects는 총 오브젝트 개수, ceil(x)는 x보다 크지 않은 정수
앞서 표 4과 표 5에 나타난 케이스는, 총 오브젝트 개수가 5개인 경우이므로, 고정 5비트가 아닌 가변 비트 3비트(=(ceil(log25))로서 다음 표 8 및 표 9와 같이 나타낼 수 있다.
커플 대상 정보(bsObjectIsCoupled) 의 일 예
i = 0 i = 1 i = 2 i = 3 i = 4
bsObjectType - - 011 010 -
커플 대상 정보(bsObjectIsCoupled)의 일 예
i = 0 i = 1 i = 2 i = 3 i = 4
bsObjectIsCoupled 001 000 011 010 -
도 13은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더의 구성을 보여주는 도면이다. 도 14는 본 발명의 실시예에 따른 오디오 신호 처리 방법 중 디코딩 동작에 대한 순서를 보여주는 도면이다.
우선, 도 13을 참조하면, 디코더(200)는 디멀티플렉서(210), MBO 트랜스코더(220)를 포함하고, 멀티채널 디코더(230)를 더 포함할 수 있다. 이하, 도 13 및 도 14를 함께 참조하면서 디코더(200)의 기능 및 동작을 설명하고자 한다.
디코더(210)의 수신 유닛(미도시)는 다운믹스 신호(DMX), 및 비트스트림을 수신하고, 레지듀얼 신호를 더 수신할 수 있다(S110 단계). 여기서 상기 비트스트림에는 상기 레지듀얼 신호가 포함되어 있을 수 있고 나아가 다운믹스 신호(DMX)까지 포함되어 있을 수 있으나, 본 발명은 이에 한정되지 아니한다.
디멀티플렉서(210)는 비트스트림(나아가 비트스트림의 확장 영역)으로부터 확장 타입 식별자를 추출하고 이를 근거로 다운믹스 신호(DMX)에 멀티채널 오브젝트(MBO)가 포함되어 있는지 여부를 판단한다. 다운믹스(DMX)에 MBO가 포함되어 있다고 판단되는 경우(S120단계의 'yes', 비트스트림으로부터 제1 공간 정보를 추출한다(S130 단계).
MBO 트랜스코더(220)는 레지듀얼, 오브젝트 정보 등을 이용하여 다운믹스(DMX)를 MBO 및 노멀 오브젝트로 분리한다. MBO 트랜스코더(220)는 믹스 정보(MXI)를 근거로 모드를 결정하는 데 이때 모드는 MBO를 업믹싱하는 모드, 또는 노멀 오브젝트 신호를 제어하는 모드로 나뉠 수 있다. MBO를 업믹싱하는 모드는 백그라운드만을 남겨두는 것이기 때문에 가라오케 모드(karaoke mode)에 해당할 수 있고, 노멀 오브젝트 신호를 제어하는 모드는 백그라운드를 제거하고 보컬과 같은 오브젝트만을 남겨두는 것일 수 있기 때문에 솔로 모드(solo mode)에 해당할 수 있다. 한편, 믹스 정보(MXI)에 대한 더욱 구체적인 설명은 추후 도 17 및 도 18과 함께 후술하고자 한다.
이와 같이 MBO가 억압되지 않는 모드(또는 MBO가 업믹싱되는 모드)인 경우(예를 들어 가라오케 모드인 경우)(S140 단계의 'yes', 수신된 제1 공간 정보를 멀티채널 디코더(230)에 전달한다(S150 단계), 그러면 멀티채널 디코더(230)는 채널 기반의 방식으로 제1 공간 정보를 이용하여 모노 또는 스테레오 채널의 멀티채널 오브젝트 신호를 업믹싱하여 멀티채널 신호를 생성한다(S160 단계).
만약 MBO가 억압되는 모드인 경우(즉, 노멀 오브젝트 신호를 렌더링하는 경우)(예를 들어 솔로 모드인 경우)(S140 단계의 'no'), 수신된 제1 공간 정보를 이용하지 않고, 오브젝트 정보 및 믹스 정보(MXI)를 이용하여 프로세싱 정보를 생성한다(S170 단계). 상기 오브젝트 정보는 다운믹스에 포함된 하나 이상의 오브젝트 신호가 다운믹스될 때 결정된 정보로서, 앞서 언급한 바와 같이 오브젝트 레벨 정보 등을 포함한다. 여기서 프로세싱 정보란, 다운믹스 프로세싱 정보 및 제2 공간 정보 중 하나 이상을 포함하는 데, 멀티채널 디코더(230) 없이 MBO 트랜스코더(220)에서 바로 출력 채널이 생성되는 모드인 경우(디코딩 모드), 프로세싱 정보는 다운믹스 프로세싱 정보만을 포함한다. 반대로, 멀티채널 디코더(230)로 노멀 오브젝트가 전달되는 경우(트랜스 코딩 모드), 프로세싱 정보는 제2 공간 정보를 더 포함할 수 있다. 디코딩 모드 및 트랜스 코딩 모드에 대한 구체적인 설명은 추후 도 17 및 도 18과 함께 후술하고자 한다.
이와 같이 MBO 트랜스코더(220)가 제2 공간 정보를 생성한 경우(디코딩 모드), 멀티채널 디코더(230)는 제2 공간 정보를 이용하여 노멀 오브젝트 신호를 업믹싱함으로써 멀티채널 신호를 생성한다(S180 단계).
이하, 도 15 및 도 16를 참조하면서 디멀티플렉서(210)의 세부 구성에 대해서 설명하도록 하고, 도 17 내지 도 18을 참조하면서 MBO 트랜스코더(220)의 세부 구성에 대해서 설명하고자 한다.
도 15은 도 13의 디멀티플렉서(210)의 세부 구성도의 일 예이고, 도 16은 다른 예이다. 다시 말해서, 도 15에 도시된 디멀티플렉서(210A)는 앞서 도 2의 멀티플렉서(130A)에 대응한 예이고, 도 16의 디멀티플렉서(210B)는 앞서 도 9의 멀티플렉서(130B)에 대응한 예이다. 요컨대, 도 15에 도시된 디멀티플렉서(210A)는 확장 타입 식별자에 따라서 제1 공간 정보를 추출하는 예이고, 도 16에 도시된 디멀티플렉서(210B)는 커플링된 오브젝트 정보를 추출하는 예이다.
도 15를 참조하면, 디멀티플렉서(210A)는 확장 타입 식별자 추출 파트(212A), 제1 공간정보 추출 파트(214A), 및 오브젝트 정보 추출 파트(216A)를 포함한다. 확장 타입 식별자 추출 파트(212A)는 우선 비트스트림으로부터 확장 타입 식별자를 추출한다. 여기서 확장 타입 식별자(bsSaocExtType)는 도 3에 도시된 신택스에 따라서 획득될 수 있고 앞서 설명된 표 1에 의해 해석될 수 있다. 그리고 확장 타입 식별자가 다운믹스 신호에 MBO가 포함되어 있음(즉, 비트스트림에 공간 정보가 포함되어 있음)을 지시하는 경우(예: bsSaocExtType가 x인 경우), 비트스트림은 제1 공간 정보 추출 파트(214A)로 유입되고, 제1 공간 정보 추출 파트(214A)는 비트스트림으로부터 제1 공간 정보를 획득할 수 있다. 반대로 확장 타입 식별자가 다운믹스에 MBO가 포함되어 있지 않은 것을 지시하는 경우, 비트스트림은 제1 공간정보 추출 파트(214A)로 유입되지 않고, 오브젝트 정보 추출 파트(216A)로 직접 전달된다.
상기 제1 공간 정보는, 앞서 설명한 바와 같이, 멀티채널 소스 신호를 모노 또는 스테레오의 MBO로 다운믹스할 때 결정된 정보이자, MBO를 멀티채널로 업믹싱하기 위해 필요한 공간 정보이다. 또한, 제1 공간 정보는 앞서 도 4, 및 도 7에 정의된 공간 컨피그레이션 정보, 및 도 5, 도 6 및 도 8에 도시된 공간 프레임 데이터를 포함할 수 있다.
그리고 오브젝트 정보 추출 파트(216A)는 확장 타입 식별자와 상관없이 비트스트림으로부터 오브젝트 정보를 추출한다.
도 16을 참조하면, 디멀티플렉서(210B)는 확장 타입 식별자 추출 파트(212B), 커플링된 오브젝트 정보 추출 파트(214B) 및 오브젝트 정보 추출 파트(216B)를 포함한다.
확장 타입 식별자 추출 파트(212B)는 비트스트림으로부터 확장 타입 식별자를 추출한다. 확장 타입 식별자는 도 3에 도시된 신택스에 따라서 획득될 수 있고 앞서 설명된 표 2에 의해 해석될 수 있다. 확장 타입 식별자가 비트스트림에 커플링된 오브젝트 정보가 포함되어 있음을 의미하는 경우(예를 들어, bsSaocExtType=y인 경우), 비트스트림은 커플링된 오브젝트 정보 추출 파트(214B)로 유입되고 반대의 경우, 오브젝트 정보 추출 파트(216B)로 직접 전달된다.
여기서 커플링된 오브젝트 정보란, 다운믹스한 둘 이상의 오브젝트 신호들 중에서, 스테레오 오브젝트 또는 멀티채널 오브젝트가 존재하는지 아니면, 노멀 오브젝트만 존재하는지 등에 대한 정보이다. 나아가, 앞서 도 10 및 도 11과 함께 설명된 바와 같이, 커플링된 오브젝트 정보는 커플링 오브젝트 식별정보(bsCoupledObject[i][j]), 좌측 채널 정보(bsObjectIsLeft), MBO 정보(bsObjectIsMBO) 등을 포함할 수 있다. 여기서 커플링된 오브젝트 정보란, 오브젝트 인코더(120)가 다운믹스한 둘 이상의 오브젝트 신호들 중에서, 스테레오 오브젝트 또는 멀티채널 오브젝트가 존재하는지 아니면, 노멀 오브젝트만 존재하는지 등에 대한 정보이다. 디코더는 커플링된 오브젝트 정보를 이용하여 어떤 오브젝트가 스테레오 오브젝트(또는 멀티채널 오브젝트)인지 알 수 있다. 이하에서는 커플링된 오브젝트 정보의 속성 및 용도에 대해서 설명하고자 한다.
스테레오 오브젝트(또는 스테레오로 다운믹스 된 멀티 채널 신호)는 모두 2개의 오브젝트 신호라 하더라도, 하나 또는 복수 개의 음원의 좌측 채널 및 우측 채널의 성질을 가지고 있기 때문에 서로 유사성이 높다. 즉 오브젝트 신호의 좌측 채널 및 우측 채널은 마치 하나의 오브젝트와 같이 행동한다. 예를 들어 오브젝트 상관 정도(IOC: Inter-Object cross Correlation)가 매우 높을 수 있다. 그렇기 때문에, 디코더에서는 다운믹스 신호에 포함된 다수 개의 오브젝트들 중 어떤 오브젝트가 스테레오 오브젝트(또는 멀티채널 오브젝트)에 해당하는지 아는 경우, 스테레오 오브젝트 신호의 상기와 같은 유사성을 이용함으로써 오브젝트 신호를 렌더링하는 데 효율을 높일 수 있다. 예를 들어, 특정 오브젝트 신호의 레벨 또는 패닝(위치)를 제어하는 경우에, 2개의 오브젝트로 취급되는 스테레오 오브젝트 신호의 좌측 채널 및 우측 채널을 각각 별개로 제어할 수 있다. 구체적으로, 유저가 스테레오 오브젝트 신호의 좌측 채널을 출력 채널의 좌측 및 우측 채널로 최대 레벨를 갖고 렌더링하고, 스테레오 오브젝트 신호의 우측 채널을 출력 채널의 좌측 및 우측 채널로 최소 레벨을 갖고 렌더링 할 수 있는 것이다. 이와 같이 스테레오 오브젝트 신호의 특성을 무시하고 오브젝트 신호를 렌더링하는 경우에는 음질이 상당히 악화될 수 있다. 그러나, 디코더에서 스테레오 오브젝트 신호의 존재를 알고 있는 경우, 그 스테레오 좌측 채널 및 우측 채널을 한꺼번에 일괄적으로 제어함으로써 음질이 나빠지는 것을 예방할 수 있다. 디코더는 IOC 값으로 어느 오브젝트가 스테레오 오브젝트 신호의 일부 채널인지를 추정할 수도 있지만, 어느 오브젝트가 스테레오 오브젝트인지를 명시적으로 지시하는 커플링된 오브젝트 정보가 수신될 경우, 이를 오브젝트 신호를 렌더링하는 데 활용할 수 있다.
한편, 다운믹스 신호가 스테레오 채널의 오브젝트 신호를 포함하는 경우, 이것이 일반적인 스테레오 오브젝트인지 아니면 멀티채널 오브젝트(MBO)가 스테레오 채널로 다운믹스된 것인지를 디코더가 상기 설명한 MBO 정보를 통해 알 수 있다. 디코더는 MBO 정보를 이용하여, 멀티채널 오브젝트(MBO)가 다운믹스될 때 결정된 공간정보(도 15와 함께 설명한 제1 공간 정보에 해당할 수 있음)가 비트스트림에 포함되어 있는지 여부를 알 수도 있다. 나아가, MBO가 디코더에서 이용될 때, 종종 변경되지 않기를 원하거나 또는 기껏해야 전체적인 게인으로서 변형되길 원한다.
이와 같이 도 16에 도시된 디멀티플렉서(210B)는 커플링된 오브젝트 정보를 수신함으로써, 확장 타입 식별자가 커플링된 오브젝트 정보가 포함되는 것을 지시하는 경우, 비트스트림으로부터 커플링된 오브젝트 정보를 추출한다.
그리고 오브젝트 정보 추출 파트(216)는 역시 확장 타입 식별자 또는 커플링된 오브젝트 정보의 존재여부와 상관없이 비트스트림으로부터 오브젝트 정보를 추출한다.
도 17 및 도 18은 도 13의 MBO 트랜스코더(220)의 세부 구성도의 예들이고, 도 19는 도 17 및 18의 추출 유닛(222)의 세부 구성도의 예들이다.
도 17에 도시된 MBO 트랜스코더(및 멀티 채널 디코더)는 그 구성요소는 다르지 않지만, 도 17은 다운믹스 신호에 포함된 오브젝트들 중에 MBO 이외의 노멀 오브젝트는 억압되는 모드(예: 가라오케 모드)에 대한 것이고, 도 18은 다운믹스 신호 중 MBO는 억압되고 노멀 오브젝트만이 렌더링되는 경우인 모드(예: 솔로 모드)에 대한 것이다. 우선 도 17을 참조하면, MBO 트랜스코더(220)는 추출 유닛(222), 렌더링 유닛(224) 및 다운믹스 프로세싱 유닛(226), 정보 생성 유닛(228)을 포함하고, 도 13에 도시된 바와 같이 멀티채널 디코더(230)와 연결될 수 있다.
추출 유닛(222)은 레지듀얼(및 오브젝트 정보)를 이용하여 다운믹스(DMB)로부터 MBO 또는 노멀 오브젝트 신호를 추출한다. 추출 유닛(222)의 예들이 도 19에 도시되어 있다. 도 19의 (A)를 참조하면, OTN 모듈(222-1)(One-To-N)은 하나 채널의 입력 신호로부터 N채널의 출력신호를 생성하는 모듈로서, 예를 들어, 두 레지듀얼 신호들(residual1, residual2)를 이용하여 모노 다운믹스(DMXm)로부터 모노 MBO(MBOm) 및 두 개의 노멀 오브젝트(Normal obj1, Normal obj2)를 추출할 수 있다. 이때 레지듀얼 신호의 개수는 노멀 오브젝트 신호의 개수와 동일할 수 있다. 도 19의 (B)를 참조하면, TTN 모듈(222-2)(Two-To-N)은 두 채널의 입력 신호로부터 N채널의 출력신호를 생성하는 모듈로서, 예를 들어 스테레오 다운믹스(DMXL, DMXR)로부터 두 개의 MBO 채널(MBOL, MBOR) 및 세 개의 노멀 오브젝트(Normal obj1, Normal obj2, Normal obj3)를 추출할 수 있다.
그런데 만약, 인코더에서 레지듀얼 신호가 생성될 때, MBO만을 가라오케 모드의 백그라운드인 인핸스드 오디오 오브젝트(Enhanced Audio Object: EAO)로 설정하지 않고, MBO 및 노멀 오브젝트 신호를 포함하여 EAO로 설정하고 레지듀얼을 생성할 수도 있다. 이렇게 생성된 레지듀얼을 이용하는 경우 도 19의 (C) 및 (D)에 나타난 바와 같이 모노 또는 스테레오 채널의 EAO(EAOm, 및 EAOL, EAOR)를 추출하고, EAO에 포함된 이외의 오브젝트인 레귤러 오브젝트(Regular objN)이 추출될 수 있다.
이하에서는, 도 19의 (A) 및 (B)에 나타난 바와 같이 MBO가 가라오케 모드 및 솔로 모드에서의 EAO를 구성하는 경우에 대해서 설명하고자 한다.
다시 도 17을 참조하면, 추출 유닛(220)에 의해 추출된 MBO 및 노멀 오브젝트는 렌더링 유닛(224)에 유입된다. 렌더링 유닛(224)은 렌더링 정보(Rendering Information)(RI)를 근거로 MBO 및 노멀 오브젝트 중 하나 이상을 억압할 수 있다. 여기서 렌더링 정보(RI)는 모드 정보를 포함할 수 있는데, 모드 정보란, 일반 모드, 가라오케 모드, 및 솔로 모드 중 하나를 선택하는 정보이다. 일반 모드는 가라오케 모드 및 솔로 모드 모두 선택하지 않는 정보이고, 가라오케 모드는 MBO(또는 MBO를 포함한 EAO) 이외의 오브젝트 신호를 억압하는 모드이고 솔로 모드는 MBO를 억압하는 모드에 해당한다. 한편 렌더링 정보(RI)는 믹스 정보(MXI) 그 자체일 수도 있고 정보 생성 유닛(228)이 믹스 정보(MXI)를 근거로 생성한 정보일 수 있으나, 본 발명은 이에 한정되지 아니한다. 믹스 정보는 도 18과 함께 구체적으로 설명하고자 한다.
만약, 렌더링 유닛(224)이 만약 MBO이외의 노멀 오브젝트 신호를 억압하는 경우가 가라오케 모드 MBO만이 멀티채널 디코더(230)로 출력되고, 정보 생성 유닛(228)은 다운믹스 프로세싱 정보(DPI) 및 제2 공간정보를 생성하지 않는다. 물론 다운믹스 프로세싱 유닛(226) 또한 활성화되지 않을 수 있다. 그리고 수신된 제1 공간정보가 멀티채널 디코더(230)로 전달된다.
멀티채널 디코더(230)은 수신된 제1 공간정보를 이용하여 MBO를 멀티채널 신호로 업믹스할 수 있다. 즉 가라오케 모드의 경우 MBO 트랜스코더(220)는 수신된 공간정보와 다운믹스 신호로부터 추출된 MBO를 멀티채널 디코더로 전달하는 하는 것이다.
도 18은 솔로 모드인 경우 MBO 트랜스코더(220)의 동작을 나타내고 있다. 추출 유닛(222)은 마찬가지로 다운믹스(DMX)로부터 MBO 및 노멀 오브젝트 신호를 추출한다. 렌더링 파트(224)는 렌더링 정보(RI)를 이용하여 솔로모드인 경우 MBO를 억압하고 노멀 오브젝트 신호를 다운믹스 프로세싱 파트(226)에 전달한다.
한편 정보 생성 유닛(228)은 오브젝트 정보 및 믹스 정보(MXI)를 이용하여 다운믹스 프로세싱 정보(DPI)를 생성한다. 여기서 믹스 정보(MXI)란 오브젝트 위치 정보(object position information), 오브젝트 게인 정보(object gain information), 및 재생 환경 정보(playback configuration information) 등을 근거로 생성된 정보이다. 여기서 오브젝트 위치 정보 및 오브젝트 게인 정보는 다운믹스에 포함된 오브젝트 신호를 제어하기 위한 정보로서, 여기서 오브젝트는 앞서 설명한 노멀 오브젝트뿐만 아니라 EAO까지 포함되는 개념일 수 있다.
구체적으로, 오브젝트 위치 정보란, 사용자가 각 오브젝트 신호의 위치 또는 패닝(panning)를 제어하기 위해 입력한 정보이며, 오브젝트 게인 정보란, 사용자가 각 오브젝트 신호의 게인(gain)을 제어하기 위해 입력한 정보이다. 따라서 여기 오브젝트 게인 정보는 노멀 오브젝트에 대한 게인 컨트롤 정보뿐만 아니라 EAO에 대한 게인 컨트롤 정보를 포함할 수 있다.
한편, 오브젝트 위치 정보 및 오브젝트 게인 정보는 프리셋 모드들로부터 선택된 하나일 수 있는데, 프리셋 모드란, 시간에 따라 오브젝트 특정 게인 및 특정 위치가 미리 결정된 값으로서, 프리셋 모드 정보는, 다른 장치로부터 수신된 값일 수도 있고, 장치에 저장되어 있는 값일 수도 있다. 한편, 하나 이상의 프리셋 모드들(예: 프리셋 모드 사용안함, 프리셋 모드 1, 프리셋 모드 2 등) 중 하나를 선택하는 것은 사용자 입력에 의해 결정될 수 있다. 재생환경 정보는, 스피커의 개수, 스피커의 위치, 앰비언트 정보(speaker의 가상 위치) 등을 포함하는 정보로서, 사용자로부터 입력받을 수도 있고, 미리 저장되어 있을 수도 있으며, 다른 장치로부터 수신할 수도 있다.
한편 앞서 설명한 바와 같이, 믹스 정보(MXI)는 일반 모드, 가라오케 모드, 및 솔로 모드 중 하나를 선택하기 위한 정보인 모드 정보를 더 포함할 수 있다.
한편, 정보 생성 유닛(228)은 디코딩 모드인 경우에는 다운믹스 프로세싱 정보(DPI)만을 생성할 수 있지만, 트랜스코딩 모드인 경우(즉, 멀티채널 디코더를 이용하는 모드인 경우) 오브젝트 정보 및 믹스 정보(MXI)를 이용하여 제2 공간 정보를 생성한다. 제2 공간 정보는 제1 공간 정보와 마찬가지로 채널 레벨 차이, 채널 상관 정보 등을 포함한다. 다만, 제1 공간 정보는 오브젝트 위치 및 레벨을 제어하는 기능이 반영되어 있지 않은 반면에, 제2 공간 정보는 믹스 정보(MXI)를 기반으로 생성된 것이기 때문에 사용자가 오브젝트별로 위치 및 레벨을 제어하는 것이 반영되어 있는 것이다.
한편 정보 생성 유닛(228)은 출력 채널이 멀티채널이고, 입력 채널이 모노 채널인 경우 다운믹스 프로세싱 정보(DPI)를 생성하지 않을 수 있고, 이 경우 다운믹스 프로세싱 유닛(226)은 입력 신호를 바이패스하여 멀티채널 디코더(230)로 전달한다.
한편, 다운믹스 프로세싱 유닛(226)은 다운믹스 프로세싱 정보(DPI)를 이용하여 노멀 오브젝트에 대해 프로세싱을 수행함으로써 프로세싱된 다운믹스를 생성한다. 여기서 프로세싱은 입력 채널수와 출력 채널수를 변화시키지 않고, 오브젝트 신호의 게인 및 패닝을 조정하기 위한 것이다. 만약 디코딩 모드인 경우(출력 모드가 모노 채널, 스테레오 채널, 3D 스테레오 채널(바이노럴 모드))이 경우에는 다운믹스 프로세싱 유닛(226)은 시간 도메인의 프로세싱된 다운믹스를 최종적 출력 신호로서 출력한다(미도시). 즉 프로세싱된 다운믹스를 멀티채널 디코더(230)로 전달하지 않는 것이다. 반대로 트랜스코딩 모드인 경우(출력 모드가 멀티 채널인 경우), 다운믹스 프로세싱 유닛(226)은 프로세싱된 다운믹스를 멀티채널 디코더(230)로 전달한다. 한편, 수신된 제1 공간정보는 멀티채널 디코더(230)로 전달되지 않는다.
그러면 멀티채널 디코더(230)는 정보 생성 유닛(228)에 의해 생성된 제2 공간 정보를 이용하여 프로세싱된 다운믹스를 멀티채널 신호로 업믹싱한다.
<가라오케 모드에 대한 어플리케이션 시나리오>
가라오케 및 솔로모드에 있어서, 오브젝트는 노멀 오브젝트 및 EAO로 분류된다. 리드 보컬 신호가 레귤러 오브젝트 신호의 좋은 예이고, 노래방 트랙이 EAO이 될 수 있다. 그러나 EAO 및 레귤러 오브젝트에 대한 강한 제한(strict limitation)은 없다. TTN 모듈의 레지듀얼 개념의 이점에 의해, 6개의 오브젝트(2 개의 스테레오 EAO 및 4개의 레귤러 오브젝트)까지 TTN 모듈에 의해 높은 품질로 분리될 수 있다.
가라오케 및 솔로 모드에서, 각각 EAO 및 레귤러 오브젝트에 대한 레지듀얼 신호가 분리 품질을 위해 필요하다. 그렇기 때문에 오브젝트 신호의 수에 비례하여 총 비트레이트 수가 증가하는데, 오브젝트 신호의 수를 낮추기 위해서는 EAO 및 레귤러 오브젝트로 오브젝트 신호를 그룹핑하는 것이 요구된다. EAO 및 노멀 오브젝트로 그룹핑된 오브젝트는 비트 절감의 대가로 각각 제어될 수 없다.
그러나 어떤 응용 시나리오에서는, 높은 품질의 가라오케의 기능을 갖는 것과 동시에 각 동반하는 오브젝트 신호를 중간 정도의 레벨로 제어하는 기능을 갖는 것이 요구될 수 있다. 5 스테레오 오브젝트가 존재할 때(즉, 리드 보컬, 리드 기타, 베이스 기타, 드럼 및 키보드) 상호적인 뮤직 리믹스의 전형적인 예를 생각해보자. 이 경우, 리드 보컬이 레귤러 오브젝트 신호를 형성하고, 나머지 4개의 스테레오 오브젝트들의 혼합물이 EAO를 구성한다. 유저는 제작자 믹스 버전(전송된 다운믹스), 가라오케 버전, 솔로 버전(아 카펠라 버전)을 즐길 수 있다. 그러나, 이 경우, 유저는 선호하는 메가 베이스(MegaBass)모드를 위해 베이스 기타, 또는 드럼을 부스트(boost)시킬 수 없다.
일반 모드에서는, 적은 정보량(예: 비트레이트가 3kpbs/object)에도 불구하고 다운믹스의 모든 오브젝트 신호를 일반적인 정도의 렌더링 파라미터로 모든 그리고 각각의 오브젝트 신호를 제어하는 것이 가능하지만, 분리의 높은 품질이 성취되지는 않는다. 한편, 가라오케 및 솔로 모드에서는 거의 완전히 노멀 오브젝트 신호를 분리하는 것은 가능하지만, 제어가능한 오브젝트 수가 감소된다. 따라서, 어플리케이션은 일반 모드와 가라오케/솔로 모드 중 하나만이 배타적으로 선택되도록 강제할 수 있다. 이와 같이 어플리케이션의 시나리오의 요구를 이행하기 위해 일반 모드와 가라오케/솔로모드의 이점의 결합을 고려하는 것을 제안할 수 있다.
<TTN 모듈에서의 에너지 모드>
가라오케/솔로 모드에서 TTN 매트릭스는 프리딕션 모드 및 에너지 모드에 의해서 획득된다. 레지듀얼 신호는 프리딕션 모드에서 필요하거, 반면 에너미 모드는 레지듀얼 신호 없이 동작될 수 있다.
가라오케/솔로 모드의 개념을 떠나서, EAO와 레귤러 신호를 떠나서, 에너지 기반의 솔로/레지듀얼 모드와 일반 모드와의 큰 차이점이 없는 것이 고려될 수 있다. 두 프로세싱 모드에서 오브젝트 파라미터는 같은데, 다만, 프로세싱된 출력이 다르다. 일반 모드에서는 최종적으로 렌더링된 신호를 출력하는데 비해, 에너지 기반의 가라오케/솔로 모드에서는 분리된 오브젝트 신호를 출력하고, 렌더링 포스트 프로세싱 유닛을 더 필요로 한다. 결과적으로, 이러한 두 접근이 출력의 품질을 차별화시키지 않는다고 가정할 때, 오브젝트 비트스트림를 디코딩하는데 두 개의 다른 디스크립션이 존재한다. 이것이 해석하고 구현하는데 있어서 혼란을 야기시킨다.
일반 모드와 에너지 기반의 가라오케/솔로 모드 간의 이러한 중복을 명확히 하고 가능한 통합할 것을 제안한다.
<레지듀얼 신호에 대한 정보>
레지듀얼 신호의 컨피그레이션은 ResidualConfig()에서 정의되고, 레지듀얼 신호는 ResidualData()를 통해 전송된다. 그러나, 레지듀얼 신호가 적용된 오브젝트가 어떤 오브젝트인지에 대한 정보가 없다. 이러한 모호함을 제거하기 위해서 또한 레지듀얼과 오브젝트가 미스 매칭되는 위험을 제거하기 위해서 오브젝트 비트스트림에서 레지듀얼 신호에 대한 부가적인 정보가 전송되는 것이 요구된다. 이 정보는 ResidualConfig()에 삽입될 수 잇다. 이와 같이 레지듀얼 신호에 대한 부가 정보, 특히 레지듀얼 신호가 어느 오브젝트 신호에 적용될 것인지에 대한 정보를 갖는 것을 제안한다.
본 발명에 따른 오디오 신호 처리 장치는 다양한 제품에 포함되어 이용될 수 있다. 이러한 제품은 크게 스탠드 얼론(stand alone) 군과 포터블(portable) 군으로 나뉠 수 있는데, 스탠드 얼론군은 티비, 모니터, 셋탑 박스 등을 포함할 수 있고, 포터블군은 PMP, 휴대폰, 네비게이션 등을 포함할 수 있다.
도 20는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계를 보여주는 도면이다. 우선 도 20을 참조하면, 유무선 통신부(310)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부(310)는 유선통신부(310A), 적외선통신부(310B), 블루투스부(310C), 무선랜통신부(310D) 중 하나 이상을 포함할 수 있다.
사용자 인증부는(320)는 사용자 정보를 입력 받아서 사용자 인증을 수행하는 것으로서 지문인식부(320A), 홍채인식부(320B), 얼굴인식부(320C), 및 음성인식부(320D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입력받아서, 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치여부를 판단하여 사용자 인증을 수행할 수 있다.
입력부(330)는 사용자가 여러 종류의 명령을 입력하기 위한 입력장치로서, 키패드부(330A), 터치패드부(330B), 리모컨부(330C) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
신호 코딩 유닛(340)는 유무선 통신부(310)를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력한다. 오디오 신호 처리 장치(345)를 포함하는데, 이는 앞서 설명한 본 발명의 실시예(즉, 인코더(100) 및/또는 디코더(200))에 해당하는 것으로서, 이와 같이 오디오 처리 장치(345) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부(350)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부(340)와 출력부(360)의 모든 프로세스를 제어한다. 출력부(360)는 신호 디코딩부(340)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부(360A) 및 디스플레이부(360B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
도 21는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도이다. 도 21는 도 20에서 도시된 제품에 해당하는 단말 및 서버와의 관계를 도시한 것으로서, 도 21의 (A)를 참조하면, 제1 단말(300.1) 및 제2 단말(300.2)이 각 단말들은 유무선 통신부를 통해서 데이터 내지 비트스트림을 양방향으로 통신할 수 있음을 알 수 있다. 도 21의 (B)를 참조하면, 서버(500) 및 제1 단말(300.1) 또한 서로 유무선 통신을 수행할 수 있음을 알 수 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 발명은 오디오 신호를 인코딩하고 디코딩하는데 데 적용될 수 있다.

Claims (15)

  1. 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계;
    상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 단계;
    상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 단계;
    상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 단계; 상기 멀티채널 오브젝트 신호가 억압되는 것을 모드 정보가 지시하는 경우, 상기 오브젝트 정보 및 믹스 정보를 이용하여 제2 공간 정보를 생성하는 단계; 및,
    상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나를 전송하는 단계를 포함하고,
    상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되고,
    상기 믹스 정보는 상기 다운믹스 신호에 포함된 오브젝트 신호의 게인 또는 위치를 제어하기 위한 정보인 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나는 상기 멀티채널 오브젝트 신호가 억압되는 지 여부를 지시하는 모드 정보에 따라 전송되는 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제 2 항에 있어서,
    상기 멀티채널 오브젝트 신호가 억압되지 않는 것을 상기 모드 정보가 지시하는 경우, 상기 제1 공간 정보가 전송되고,
    상기 멀티채널 오브젝트 신호가 억압되는 것을 상기 모드 정보가 지시하는 경우, 상기 제2 공간 정보가 전송되는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 제1 공간정보가 전송되는 경우, 제1 공간 정보 및 상기 멀티채널 오브젝트 신호를 이용하여 멀티채널 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 제2 공간 정보가 생성되는 경우, 상기 제2 공간 정보 및 상기 노멀 오브젝트 신호를 이용하여 출력 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 제2 공간 정보가 전송되는 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 다운믹스 프로세싱 정보를 생성하는 단계;
    상기 다운믹스 프로세싱 정보를 이용하여 상기 노멀 오브젝트 신호를 프로세싱함으로써 프로세싱된 다운믹스 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 제 1 항에 있어서,
    상기 제1 공간 정보는 공간 컨피그레이션 정보 및 공간 프레임 데이터를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  8. 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하고, 상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 수신 유닛;
    상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 확장 타입 식별자 추출 파트;
    상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 제1 공간 정보 추출 파트; 및,
    상기 멀티채널 오브젝트 신호가 억압되는 것을 모드 정보가 지시하는 경우, 상기 오브젝트 정보 및 믹스 정보를 이용하여 제2 공간 정보를 생성하고, 상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나를 전송하는 멀티채널 오브젝트 트랜스코더를 포함하고,
    상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되고,
    상기 믹스 정보는 상기 다운믹스 신호에 포함된 오브젝트 신호의 게인 또는 위치를 제어하기 위한 정보인 것을 특징으로 하는 오디오 신호 처리 장치.
  9. 제 8 항에 있어서,
    상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나는 상기 멀티채널 오브젝트 신호가 억압되는 지 여부를 지시하는 모드 정보에 따라 전송되는 것을 특징으로 하는 오디오 신호 처리 장치.
  10. 제 9 항에 있어서,
    상기 멀티채널 오브젝트 신호가 억압되지 않는 것을 상기 모드 정보가 지시하는 경우, 상기 제1 공간 정보가 전송되고,
    상기 멀티채널 오브젝트 신호가 억압되는 것을 상기 모드 정보가 지시하는 경우, 상기 제2 공간 정보가 전송되는 것을 특징으로 하는 오디오 신호 처리 장치.
  11. 제 8 항에 있어서,
    상기 제1 공간정보가 전송되는 경우, 제1 공간 정보 및 상기 멀티채널 오브젝트 신호를 이용하여 멀티채널 신호를 생성하는 멀티채널 디코더를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  12. 제 8 항에 있어서,
    상기 제2 공간 정보가 생성되는 경우, 상기 제2 공간 정보 및 상기 노멀 오브젝트 신호를 이용하여 출력 신호를 생성하는 멀티채널 디코더를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  13. 제 8 항에 있어서,
    상기 멀티채널 오브젝트 트랜스코더는,
    상기 제2 공간 정보가 전송되는 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 다운믹스 프로세싱 정보를 생성하는 정보 생성 파트; 및
    상기 다운믹스 프로세싱 정보를 이용하여 상기 노멀 오브젝트 신호를 프로세싱함으로써 프로세싱된 다운믹스 신호를 생성하는 다운믹스 프로세싱 파트를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  14. 제 8 항에 있어서,
    상기 제1 공간 정보는 공간 컨피그레이션 정보 및 공간 프레임 데이터를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  15. 하나 이상의 노멀 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계;
    상기 다운믹스 신호가 생성될 때 결정된 오브젝트 정보를 포함하는 비트스트림을 수신하는 단계;
    상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는지 여부를 나타내는 확장 타입 식별자를 상기 비트스트림의 확장 파트로부터 추출하는 단계;
    상기 다운믹스 신호가 멀티채널 오브젝트 신호를 더 포함하는 것을 상기 확장 타입 식별자가 지시하는 경우, 상기 비트스트림으로부터 제1 공간 정보를 추출하는 단계;
    상기 멀티채널 오브젝트 신호가 억압되는 것을 모드 정보가 지시하는 경우, 상기 오브젝트 정보 및 믹스 정보를 이용하여 제2 공간 정보를 생성하는 단계; 및,
    상기 제1 공간 정보 및 상기 제2 공간 정보 중 하나를 전송하는 단계를 포함하고,
    상기 제1 공간 정보는 멀티채널 소스 신호가 상기 멀티채널 오브젝트 신호로 다운믹스될 때 결정되고,
    상기 믹스 정보는 상기 다운믹스 신호에 포함된 오브젝트 신호의 게인 또는 위치를 제어하기 위한 정보인 것을 특징으로 하는,
    동작들을, 프로세서에 의해 실행될 때, 상기 프로세서가 수행하도록 하는 명령들이 저장되어 있는 컴퓨터로 읽을 수 있는 매체.
KR1020100004817A 2009-01-20 2010-01-19 오디오 신호 처리 방법 및 장치 KR101187075B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2010800050570A CN102292768B (zh) 2009-01-20 2010-01-20 用于处理音频信号的装置及其方法
PCT/KR2010/000362 WO2010085083A2 (en) 2009-01-20 2010-01-20 An apparatus for processing an audio signal and method thereof
US12/690,837 US8620008B2 (en) 2009-01-20 2010-01-20 Method and an apparatus for processing an audio signal
EP10000533.9A EP2209328B1 (en) 2009-01-20 2010-01-20 An apparatus for processing an audio signal and method thereof
US14/137,556 US9542951B2 (en) 2009-01-20 2013-12-20 Method and an apparatus for processing an audio signal
US14/137,186 US9484039B2 (en) 2009-01-20 2013-12-20 Method and an apparatus for processing an audio signal

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US14574409P 2009-01-20 2009-01-20
US14574909P 2009-01-20 2009-01-20
US61/145,749 2009-01-20
US61/145,744 2009-01-20
US14804809P 2009-01-28 2009-01-28
US61/148,048 2009-01-28
US14838709P 2009-01-29 2009-01-29
US61/148,387 2009-01-29
US14934509P 2009-02-03 2009-02-03
US61/149,345 2009-02-03

Publications (2)

Publication Number Publication Date
KR20100085861A KR20100085861A (ko) 2010-07-29
KR101187075B1 true KR101187075B1 (ko) 2012-09-27

Family

ID=42644681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100004817A KR101187075B1 (ko) 2009-01-20 2010-01-19 오디오 신호 처리 방법 및 장치

Country Status (2)

Country Link
KR (1) KR101187075B1 (ko)
CN (1) CN102292768B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192188B (zh) * 2018-09-05 2024-04-23 厦门巨嗨科技有限公司 K歌系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
CN101185117B (zh) * 2005-05-26 2012-09-26 Lg电子株式会社 解码音频信号的方法和装置
JP5450085B2 (ja) * 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
KR101100213B1 (ko) * 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jonas Engdegard et al, "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", Presented at the 124th AES Convention, 2008 May 17-20.

Also Published As

Publication number Publication date
CN102292768A (zh) 2011-12-21
CN102292768B (zh) 2013-03-27
KR20100085861A (ko) 2010-07-29

Similar Documents

Publication Publication Date Title
US9542951B2 (en) Method and an apparatus for processing an audio signal
JP5238706B2 (ja) オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
CA2645912C (en) Methods and apparatuses for encoding and decoding object-based audio signals
JP5209637B2 (ja) オーディオ処理方法及び装置
KR101506837B1 (ko) 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
CN101542595B (zh) 用于编码和解码基于对象的音频信号的方法和装置
WO2015056383A1 (ja) オーディオエンコード装置及びオーディオデコード装置
CN103890841A (zh) 音频对象编码和解码
CN104428835A (zh) 音频信号的编码和解码
KR101187075B1 (ko) 오디오 신호 처리 방법 및 장치
AU2013200578B2 (en) Apparatus and method for generating audio output signals using object based metadata

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150824

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160824

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170814

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180814

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190814

Year of fee payment: 8