KR20160136278A - 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램 - Google Patents

인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램 Download PDF

Info

Publication number
KR20160136278A
KR20160136278A KR1020167021269A KR20167021269A KR20160136278A KR 20160136278 A KR20160136278 A KR 20160136278A KR 1020167021269 A KR1020167021269 A KR 1020167021269A KR 20167021269 A KR20167021269 A KR 20167021269A KR 20160136278 A KR20160136278 A KR 20160136278A
Authority
KR
South Korea
Prior art keywords
priority information
audio signal
unit
decoding
channel
Prior art date
Application number
KR1020167021269A
Other languages
English (en)
Other versions
KR102300062B1 (ko
Inventor
도루 치넨
마사유키 니시구치
룬유 시
미츠유키 하타나카
유키 야마모토
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Priority to KR1020217028231A priority Critical patent/KR20210111897A/ko
Publication of KR20160136278A publication Critical patent/KR20160136278A/ko
Application granted granted Critical
Publication of KR102300062B1 publication Critical patent/KR102300062B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

복수의 채널 및/또는 복수의 오브젝트를 포함하는 하나 이상의 인코딩된 오디오 신호, 및 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하고, 우선도 정보에 따라 하나 이상의 인코딩된 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 회로를 포함하는 디코딩 장치가 제공된다.

Description

인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램{ENCODING DEVICE AND ENCODING METHOD, DECODING DEVICE AND DECODING METHOD, AND PROGRAM}
본 기술은 인코딩 장치 및 방법, 디코딩 장치 및 방법, 및 프로그램에 관한 것으로, 특히 오디오 신호를 디코딩하기 위한 계산량이 감소될 수 있는, 인코딩 장치 및 방법, 디코딩 장치 및 방법, 및 프로그램에 관한 것이다.
〈관련 출원들에 대한 교차 참조〉
본 출원은 2014년 3월 24일자로 출원된 일본 우선권 특허출원 JP 2014-060486과 2014년 7월 2일자로 출원된 일본 우선권 특허출원 JP 2014-136633의 우선권 이득을 주장하며, 이들 내용 전체는 참고로 본 명세서에 포함된다.
예를 들어, 오디오 신호를 인코딩하는 방법으로서, 국제 표준 규격인 MPEG(Moving Picture Experts Group)-2 AAC(Advanced Audio Coding) 규격, MPEG-4 AAC 규격 및 MPEG-D USAC(Unified Speech and Audio Coding) 규격하의 멀티-채널 인코딩이 제안되었다(예를 들어, 비특허문헌 1 및 비특허문헌 2 참조).
[선행기술문헌]
[비특허문헌]
[비특허문헌 1]
INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3: Audio
[비특허문헌 2]
INTERNATIONAL STANDARD ISO/IEC 23003-3 Frist edition 2012-04-01 Information technology-coding of audio-visual objects-part3: Unified speech and audio coding
그런데 종래의 5.1 채널 서라운드 재생보다 더 높은 현장감(sense of presence)으로 복수의 음 소재(sound material)(오브젝트)를 재생 또는 전송하기 위해서는, 더 많은 채널을 사용하는 인코딩 기술을 제공할 필요가 있다.
예를 들어, 24개 채널의 오디오 신호 및 복수의 오브젝트의 오디오 신호를 인코딩 및 디코딩하는 경우와, 2개 채널의 오디오 신호를 인코딩 및 디코딩하는 경우가 고려된다. 이 경우, 계산 능력이 열악한 모바일 디바이스에서, 2개 채널의 오디오 신호를 실시간으로 디코딩하는 것은 가능하지만, 24개 채널의 오디오 신호 및 복수의 오브젝트의 오디오 신호를 실시간으로 디코딩하는 것은 어려운 경우가 있다.
MPEG-D USAC 등과 같은 현재의 오디오 코덱에서는, 모든 채널 및 모든 오브젝트의 오디오 신호들을 디코딩할 필요가 있기 때문에, 디코딩시의 계산량을 감소시키는 것이 어렵다. 따라서, 디코딩 측의 디바이스에 따라, 실시간으로 오디오 신호를 재생할 수 없다는 문제가 존재한다.
디코딩을 위한 계산량이 감소될 수 있는 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램을 제공하는 것이 바람직하다.
본 기술의 제1 실시예에 따른 디코딩 장치는, 복수의 채널 및/또는 복수의 오브젝트를 포함하는 하나 이상의 인코딩된 오디오 신호, 및 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하고, 우선도 정보에 따라 하나 이상의 인코딩된 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 회로를 포함한다.
적어도 하나의 회로는, 우선도 정보가 나타내는 우선도가 소정의 정도 이상인 하나 이상의 인코딩된 오디오 신호 중 적어도 하나를 디코딩하고, 우선도 정보가 나타내는 우선도가 소정의 정도 미만인 하나 이상의 인코딩된 오디오 신호 중 적어도 다른 하나의 디코딩을 억제함에 의해, 우선도 정보에 따라 적어도 부분적으로 디코딩하도록 구성될 수 있다.
적어도 하나의 회로는 복수의 채널 및/또는 복수의 오브젝트에 대한 우선도 정보에 적어도 부분적으로 기초하여 소정의 정도를 변경하도록 구성된다.
적어도 하나의 회로는 하나 이상의 인코딩된 오디오 신호마다 우선도 정보의 복수의 세트를 취득하도록 구성될 수 있으며, 적어도 하나의 회로는 우선도 정보의 세트들 중 하나를 선택하고 한 세트의 우선도 정보에 적어도 부분적으로 기초하여 디코딩함에 의해 하나 이상의 인코딩된 오디오 신호를 적어도 부분적으로 디코딩하도록 구성될 수 있다.
적어도 하나의 회로는 디코딩 장치의 계산 능력에 따라 우선도 정보의 세트들 중 하나를 선택하도록 구성될 수 있다.
적어도 하나의 회로는 인코딩된 오디오 신호에 적어도 부분적으로 기초하여 우선도 정보를 생성하도록 더 구성될 수 있다.
적어도 하나의 회로는 하나 이상의 인코딩된 오디오 신호의 오디오의 음압 또는 스펙트럼 형상에 적어도 부분적으로 기초하여 우선도 정보를 생성하도록 구성될 수 있다.
복수의 채널 및/또는 복수의 오브젝트에 대한 우선도 정보는, 복수의 채널 중 적어도 하나의 제1 채널 및/또는 복수의 오브젝트 중 적어도 하나의 제1 오브젝트 마다, 소정 기간 동안 적어도 하나의 제1 채널 및/또는 적어도 하나의 제1 오브젝트의 상이한 우선도들을 나타내는 우선도 정보를 포함할 수 있고, 적어도 하나의 회로는, 상기 소정 기간 동안의 제1 시간에서 제1 채널 및/또는 제1 오브젝트마다의 우선도 및 상기 소정 기간 동안의 상기 제1 시간 이전 또는 이후의 다른 시간에서 제1 채널 및/또는 제1 오브젝트마다의 우선도에 적어도 부분적으로 기초하여 상기 제1 시간에서 제1 채널 및/또는 제1 오브젝트를 디코딩할지를, 제1 채널 및/또는 제1 오브젝트마다 상기 소정 기간 동안의 제1 시간에서 결정함에 의해, 상기 우선도 정보에 기초하여 적어도 부분적으로 디코딩하도록 구성될 수 있다.
적어도 하나의 회로는 또한, 상기 제1 시간에서 채널 또는 오브젝트마다의 출력 오디오 신호 및 상기 제1 시간 이전 또는 이후의 제2 시간에서 채널 또는 오브젝트의 출력 오디오 신호를 가산함으로써 상기 제1 시간 동안 오디오 신호를 적어도 부분적으로 생성하고 - 소정 시간 동안 채널 또는 오브젝트마다의 출력 오디오 신호는 상기 소정 시간 동안 채널 또는 오브젝트의 디코딩이 수행되는 경우 디코딩의 결과로서 적어도 하나의 회로에 의해 획득된 신호이고, 상기 소정 시간 동안 채널 또는 오브젝트의 디코딩이 수행되지 않은 경우 제로(zero) 데이터임 -, 상기 소정 시간에서 채널 또는 오브젝트의 우선도 정보 및 상기 소정 시간 이전 또는 이후의 다른 시간에서 채널 또는 오브젝트의 우선도 정보에 기초하여 상기 소정 시간에서 채널 또는 오브젝트의 출력 오디오 신호의 이득 조정을 수행하도록 구성될 수 있다.
적어도 하나의 회로는 또한,
상기 제1 시간에서의 채널 또는 오브젝트의 우선도 정보 및 상기 제1 시간 이전 또는 이후의 상기 제2 시간에서의 채널 또는 오브젝트의 우선도 정보에 기초하여 채널 또는 오브젝트에 대한 고 주파수 파워 값의 이득을 조정하고, 이득이 조정되는 고 주파수 파워 값과 상기 소정 시간의 오디오 신호에 기초하여 상기 제1 시간 동안 오디오 신호의 고 주파수 성분을 생성하도록 구성될 수 있다.
적어도 하나의 회로는 또한, 각각의 채널 또는 각각의 오브젝트마다, 고 주파수 파워 값과 상기 소정 시간의 오디오 신호에 기초하여, 고 주파수 성분이 포함되는 상기 제1 시간의 오디오 신호를 생성하고, 고 주파수 성분이 포함되는 상기 제1 시간의 오디오 신호의 이득 조정을 수행하도록 구성될 수 있다.
적어도 하나의 회로는 또한, 우선도 정보에 기초하여 복수의 오브젝트 중 제1 오브젝트의 오디오 신호를 복수의 채널 중 적어도 일부의 각각에 소정 이득 값으로 할당하고, 복수의 채널 각각의 오디오를 생성하도록 구성될 수 있다.
본 기술의 제1 실시예에 따른 디코딩 방법 또는 프로그램은, 하나 이상의 인코딩된 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하는 단계, 및 우선도 정보에 따라 복수의 채널 및/또는 복수의 오브젝트를 디코딩하는 단계를 포함한다.
본 기술의 제1 실시예에 따르면, 하나 이상의 인코딩된 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트에 대한 우선도 정보가 취득되고, 복수의 채널 및/또는 복수의 오브젝트가 우선도 정보에 따라 디코딩된다.
본 기술의 제2 실시예에 따른 인코딩 장치는, 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트 각각에 대한 우선도 정보를 생성하고 우선도 정보를 비트 스트림에 저장하도록 구성되는 적어도 하나의 회로를 포함한다.
적어도 하나의 회로는 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보의 복수의 세트를 생성함에 의해 우선도 정보를 적어도 부분적으로 생성하도록 구성될 수 있다.
적어도 하나의 회로는 디코딩 장치들의 복수의 계산 능력 각각에 대한 우선도 정보의 복수의 세트를 생성하도록 구성될 수 있다.
적어도 하나의 회로는 오디오 신호의 음압 또는 스펙트럼 형상에 적어도 부분적으로 기초하여 우선도 정보를 생성하도록 구성될 수 있다.
적어도 하나의 회로는 인코딩된 오디오 신호를 형성하기 위해 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 오디오 신호들을 인코딩하도록 더 구성될 수 있고, 적어도 하나의 회로는 우선도 정보 및 인코딩된 오디오 신호를 비트 스트림에 저장하도록 더 구성될 수 있다.
본 기술의 제2 실시예에 따른 인코딩 방법 또는 프로그램은 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하는 단계, 및 우선도 정보를 비트 스트림에 저장하는 단계를 포함한다.
본 기술의 제2 실시예에 따르면, 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보가 생성되고, 우선도 정보가 비트 스트림에 저장된다.
제1 실시예 및 제2 실시예에 따르면, 디코딩을 위한 계산량을 감소시킬 수 있다.
본 명세서에 기재된 효과들은 반드시 이에 한정되는 것은 아니라, 본 명세서에 기재된 효과들은 본 개시 내용에 기재된 임의의 효과일 수 있다.
도 1은 비트 스트림을 설명하는 도면이다.
도 2는 인코딩을 설명하는 도면이다.
도 3은 우선도 정보를 설명하는 도면이다.
도 4는 우선도 정보의 값들의 의미를 설명하는 도면이다.
도 5는 인코딩 장치의 구성예를 예시하는 도면이다.
도 6은 채널 오디오 인코딩 유닛을 예시하는 도면이다.
도 7은 오브젝트 오디오 인코딩 유닛을 예시하는 도면이다.
도 8은 인코딩 처리를 설명하는 흐름도이다.
도 9는 디코딩 장치의 구성예를 예시하는 도면이다.
도 10은 언패킹(unpacking)/디코딩 유닛의 구성예이다.
도 11은 디코딩 처리를 설명하는 흐름도이다.
도 12는 선택적 디코딩 처리를 설명하는 흐름도이다.
도 13은 언패킹/디코딩 유닛의 다른 구성예이다.
도 14는 선택적 디코딩 처리를 설명하는 흐름도이다.
도 15는 오브젝트의 메타데이터의 신택스의 예를 예시하는 도면이다.
도 16은 오디오 신호의 생성을 설명하는 도면이다.
도 17은 오디오 신호의 생성을 설명하는 도면이다.
도 18은 MDCT 계수의 출력 목적지의 선택을 설명하는 도면이다.
도 19는 오디오 신호와 고 주파수 대역 내의 파워 값의 이득 조정을 설명하는 도면이다.
도 20은 오디오 신호와 고 주파수 대역 내의 파워 값의 이득 조정을 설명하는 도면이다.
도 21은 언패킹/디코딩 유닛의 다른 구성예를 예시하는 도면이다.
도 22는 선택적 디코딩 처리를 설명하는 흐름도이다.
도 23은 오디오 신호의 이득 조정을 설명하는 도면이다.
도 24는 오디오 신호의 이득 조정을 설명하는 도면이다.
도 25는 언패킹/디코딩 유닛의 다른 구성예를 예시하는 도면이다.
도 26은 선택적 디코딩 처리를 설명하는 흐름도이다.
도 27은 VBAP 이득을 설명하는 도면이다.
도 28은 VBAP 이득을 설명하는 도면이다.
도 29는 언패킹/디코딩 유닛의 다른 구성예를 예시하는 도면이다.
도 30은 디코딩 처리를 설명하는 흐름도이다.
도 31은 선택적 디코딩 처리를 설명하는 흐름도이다.
도 32는 컴퓨터의 구성예를 예시하는 도면이다.
이하, 본 기술을 적용한 실시예들이 도면을 참고하여 설명될 것이다.
<제1 실시예>
<본 기술의 개요>
본 기술은, 멀티채널의 신호를 구성하는 각 채널의 오디오 신호 및 오브젝트의 오디오 신호의 인코딩시, 각 채널의 오디오 신호의 우선도 정보 및 각 오브젝트의 오디오 신호의 우선도 정보를 전송함으로써, 디코딩시의 계산량이 감소될 수 있다.
또한, 본 기술은 디코딩 측에서, 각 채널 또는 각 오브젝트의 우선도 정보에 나타낸 우선도가 미리 결정된 우선도 이상인 경우에 주파수-시간 변환이 수행되고, 각 채널 또는 각 오브젝트의 우선도 정보에 나타낸 우선도가 미리 결정된 우선도 미만인 경우에 주파수-시간 변환이 수행되지 않고 주파수-시간 변환의 결과가 0이 되도록 하고, 따라서 오디오 신호의 디코딩시 계산량이 감소될 수 있다.
이하에서는, 멀티채널의 신호를 구성하는 각 채널의 오디오 신호 및 오브젝트의 오디오 신호가 AAC 규격에 따라 인코딩되는 경우가 설명될 것이다. 그러나 다른 방법으로 인코딩하는 경우에도 동일한 처리가 수행될 것이다.
예를 들어, 멀티채널을 구성하는 각 채널의 오디오 신호 및 복수의 오브젝트의 오디오 신호가 AAC 규격에 따라 인코딩되어 전송되는 경우, 각 채널 또는 각 오브젝트의 오디오 신호는 프레임마다 인코딩되어 전송된다.
구체적으로는, 도 1에 도시된 바와 같이, 인코딩된 오디오 신호 또는 오디오 신호의 디코딩에 필요한 정보가 복수의 요소(비트 스트림 요소)(bit stream element)에 저장되고, 이들 비트 스트림 요소로 이루어진 비트 스트림이 전송된다.
본 예에서는, 하나의 프레임에 대한 비트 스트림에, 선두로부터 차례로 t개의 요소 EL1 내지 ELt가 배치되고, 마지막에 해당 프레임의 정보에 관한 프레임의 종단 위치를 나타내는 식별자 TERM이 배치된다.
예를 들어, 선두에 배치된 요소 EL1은 데이터 스트림 요소(DSE)(Data Stream Element)라고 불리는 보조 데이터 영역이며, DSE에는 오디오 신호의 다운 믹싱(down-mixing)에 대한 정보 또는 식별 정보와 같은 복수의 채널 각각에 대한 정보가 기술된다.
요소 El1에 이어지는 요소들 EL2 내지 ELt에는, 인코딩된 오디오 신호들이 저장된다.
특히, 싱글 채널의 오디오 신호가 저장되는 요소는 SCE라고 부르며, 한 쌍의 2개의 채널의 오디오 신호가 저장되는 요소는 CPE라고 부른다. 또한, 각 오브젝트의 오디오 신호는 SCE라고 부른다. 또한, 각 오브젝트의 오디오 신호는 SCE에 저장된다.
본 기술에서는, 멀티채널의 신호를 구성하는 각 채널의 오디오 신호의 우선도 정보 및 오브젝트의 오디오 신호의 우선도 정보가 생성되어 DSE에 저장된다.
예를 들어, 도 2에 나타낸 바와 같이, 연속하는 프레임들 F11 내지 F13의 오디오 신호들이 인코딩된다고 가정한다.
이 경우, 인코딩 장치(인코더)는 이들 프레임 각각에 대한 각 채널의 오디오 신호의 우선도의 정도를 해석하고, 예를 들어 도 3에 나타낸 바와 같이 각 채널의 우선도 정보를 생성한다. 유사하게, 인코딩 장치도 각 오브젝트의 오디오 신호의 우선도 정보를 생성한다.
예를 들어, 인코딩 장치는 오디오 신호의 음압 또는 스펙트럼 형상과, 채널들 간 또는 오브젝트들 간의 스펙트럼 형상들의 상관에 기초하여, 오디오 신호의 우선도의 정도를 해석한다.
도 3에는, 채널들의 전체 수가 M인 경우에 각 채널의 우선도 정보가 예로서 예시되어 있다. 즉, 채널 번호가 0인 채널로부터 채널 번호가 M-1인 채널까지의 각 채널에 관하여, 이들 채널의 신호의 우선도를 나타내는 수치가 우선도 정보로서 예시되어 있다.
예를 들어, 채널 번호가 0인 채널의 우선도 정보는 3이고, 채널 번호가 1인 채널의 우선도 정보는 0이다. m(m = 0, 1,..., m-1)의 미리 결정된 채널 번호를 갖는 채널은 또한 채널 m으로 지칭한다고 가정한다.
도 3에 나타낸 우선도 정보의 값은 도 4에 나타낸 바와 같이 0과 7 사이의 임의의 값이며, 우선도 정보의 값이 커질수록, 오디오 신호의 재생시의 우선도, 즉 중요도가 높아진다.
따라서, 우선도 정보의 값이 0인 오디오 신호는 가장 낮은 우선도를 갖고, 우선도 정보의 값이 7인 오디오 신호는 가장 높은 우선도를 갖는다.
멀티채널의 오디오 신호 및 복수의 오브젝트의 오디오 신호가 동시에 재생되는 경우에, 이들 오디오 신호로부터 재생되는 음성에는, 다른 음성에 비해 그렇게 중요하지 않은 음성이 포함되어 있다. 달리 말하자면, 전체 음성으로부터 특정한 음성이 재생되지 않을지라도, 청취자에게 위화감을 야기하지 않는 정도의 음성이 존재한다.
따라서, 우선도가 낮은 오디오 신호에 대한 디코딩이 필요에 따라 수행되지 않는다면, 음질의 열화를 억제하고 디코딩을 위한 계산량을 감소시킬 수 있다. 따라서, 인코딩 장치에서는, 디코딩되지 않을 오디오 신호가 적절히 선택될 수 있는 방식으로, 재생 시에 각 오디오 신호의 중요도, 즉 디코딩시 우선도를 나타내는 우선도 정보가 프레임마다 각 오디오 신호에 대해 할당된다.
상술한 바와 같이, 각 오디오 신호에 대한 우선도 정보가 결정될 때, 우선도 정보는 도 1에 도시된 요소 EL1의 DSE에 저장된다. 특히, 도 3의 예에서는, 멀티채널의 오디오 신호를 구성하는 채널 수가 M이기 때문에, 채널 0에서 채널 M-1까지의 M개의 채널들 각각의 우선도 정보가 DSE에 저장된다.
유사하게, 각 오브젝트의 우선도 정보도 요소 EL1의 DSE에 저장된다. 여기서는, 예를 들어 오브젝트 번호가 0에서 N-1까지인 N개의 오브젝트가 있다고 가정할 때, N개의 오브젝트 각각의 우선도 정보가 결정되고, DSE에 저장된다.
이하에서는, 미리 결정된 오브젝트 번호 n(n = 0, 1,..., N-1)의 오브젝트가 또한 오브젝트 n으로 지칭된다.
이런 방식으로, 각 오디오 신호에 대한 우선도 정보가 결정되면, 재생 측에서, 즉 오디오 신호의 디코딩 측에서, 재생 시에 어느 오디오 신호가 중요하고 우선해서 디코딩돼야 할지를, 즉 재생에 사용돼야 할지를 간단히 특정할 수 있다.
도 2를 다시 참조하면, 예를 들어 미리 결정된 채널 내의 프레임 F11 및 프레임 F13의 오디오 신호들의 우선도 정보가 7이고, 미리 결정된 채널 내의 프레임 F12의 오디오 신호의 우선도 정보가 0이라로 가정한다.
또한, 오디오 신호의 디코딩 측에서, 즉 디코딩 장치(디코더)에서, 우선도가 미리 결정된 우선도보다 낮은 오디오 신호에 대해서는, 디코딩이 수행되지 않는다고 가정한다.
여기서, 예를 들어 미리 결정된 우선도가 임계치로 지칭되고 그 임계치가 4인 경우, 상술한 예에서는, 우선도 정보가 7인 미리 결정된 채널 내의 프레임 F11 및 프레임 F13의 오디오 신호에 대해 디코딩이 수행된다.
한편, 우선도 정보가 0인 미리 결정된 채널 내의 프레임 F12의 오디오 신호에 대해서는 디코딩이 수행되지 않는다.
따라서, 본 예에서, 프레임 F12의 오디오 신호는 무음 신호가 되고, 프레임 F11 및 프레임 F13의 오디오 신호들은 합성되고, 이후 미리 결정된 채널의 최종 오디오 신호가 된다.
보다 상세하게는, 예를 들어 각 오디오 신호의 인코딩 시, 오디오 신호에 대한 시간-주파수 변환이 수행되고, 시간-주파수 변환에 의해 획득된 정보가 인코딩되며, 이후 인코딩의 결과로서 획득된 인코딩된 데이터가 요소에 저장된다.
시간-주파수 변환을 위해 임의의 처리가 수행될 수 있다. 그러나 이하에서는, 시간-주파수 변환으로서 수정 이산 코사인 변환(MDCT)(Modified Discrete Cosine Transform)이 수행되는 것으로 설명이 계속될 것이다.
또한, 디코딩 장치에서는, 인코딩된 데이터에 대한 디코딩이 수행되고, 디코딩의 결과로서 획득된 MDCT 계수에 대해 역 수정 이산 코사인 변환(IMDCT)(Inverse Modified Discrete Cosine Transform)이 수행되고, 이후 오디오 신호가 생성된다. 즉, 여기서는 시간-주파수 변환에 대한 역변환(주파수-시간 변환)으로서 IMDCT가 수행된다.
이로 인해, 보다 상세하게는, 우선도 정보가 임계치의 값 4 이상인 프레임 F11 및 프레임 F13에 대해 IMDCT가 수행되고, 오디오 신호가 생성된다.
또한, 우선도 정보가 임계치의 값 4 미만인 프레임 F12에 대해서는 IMDCT가 수행되지 않고, IMDCT의 결과는 0이 되고, 이후 오디오 신호가 생성된다. 이와 같이, 프레임 F12의 오디오 신호는 무음 신호, 즉 제로 데이터가 된다.
또한, 다른 예로서, 도 3에 나타낸 예에서, 임계치가 4일 때 채널 0 내지 채널 M-1 각각의 오디오 신호들 중에서, 우선도 정보의 값이 임계치 값 4 미만인 채널 0, 채널 1 및 채널 M-2의 오디오 신호들에 대해서는 디코딩이 수행되지 않는다.
상술한 바와 같이, 우선도 정보와 임계치 간의 비교 결과에 따라, 우선도 정보에 의해 나타나는 우선도가 낮은 오디오 신호에 대해서는 디코딩이 수행되지 않고, 따라서 음질의 열화를 최소화하고, 디코딩을 위한 계산량을 감소시킬 수 있다.
<인코딩 장치의 구성예>
이어서, 본 기술이 적용되는 인코딩 장치 및 디코딩 장치의 구체적인 실시예에 대해 설명한다. 먼저, 인코딩 장치에 대해 설명한다.
도 5는 본 기술이 적용되는 인코딩 장치의 구성예를 예시한 도면이다.
도 5의 인코딩 장치(11)는 채널 오디오 인코딩 유닛(21), 오브젝트 오디오 인코딩 유닛(22), 메타데이터 입력 유닛(23) 및 패킹 유닛(24)을 포함한다.
채널 수가 M인 멀티채널 신호의 각 채널의 오디오 신호는 채널 오디오 인코딩 유닛(21)에 공급된다. 예를 들어, 각 채널의 오디오 신호는 이들 채널에 대응하는 마이크로폰으로부터 공급된다. 도 5에서, 문자 "#0" 내지 "#M-1"은 각 채널의 채널 번호를 나타낸다.
채널 오디오 인코딩 유닛(21)은 각 채널의 공급된 오디오 신호를 인코딩하고, 오디오 신호에 기초하여 우선도 정보를 생성하고, 이후 인코딩에 의해 획득된 인코딩된 데이터와 우선도 정보를 패킹 유닛(24)에 공급한다.
N 개의 채널 각각의 오디오 신호는 오브젝트 오디오 인코딩 유닛(22)에 공급된다. 예를 들어, 오브젝트들의 오디오 신호들은 이들 채널에 대응하는 마이크로폰으로부터 공급된다. 도 5에서, 문자 "#0" 내지 "#N-1"은 각 오브젝트의 오브젝트 번호를 나타낸다.
오브젝트 오디오 인코딩 유닛(22)은 각 채널의 공급된 오디오 신호를 인코딩하고, 오디오 신호에 기초하여 우선도 정보를 생성하고, 이후 인코딩에 의해 획득된 인코딩된 데이터와 우선도 정보를 패킹 유닛(24)에 공급한다.
메타데이터 입력 유닛(23)은 각 오브젝트의 메타데이터를 패킹 유닛(24)에 공급한다. 예를 들어, 각 오브젝트의 메타데이터는 공간상에서 오브젝트의 위치를 나타내는 공간 위치 정보인 것으로 고려된다. 보다 구체적으로, 예를 들어 공간 위치 정보는 3차원 공간에서 오브젝트의 위치 좌표를 나타내는 3차원 좌표 정보일 수 있다.
패킹 유닛(24)은 채널 오디오 인코딩 유닛(21)으로부터 공급된 인코딩된 데이터 및 우선도 정보, 오브젝트 오디오 인코딩 유닛(22)으로부터 공급된 인코딩된 데이터 및 우선도 정보, 및 메타데이터 입력 유닛(23)으로부터 공급된 메타데이터의 패킹을 수행하고, 비트 스트림을 생성하여 생성된 비트 스트림을 출력한다.
이와 같이 획득된 비트 스트림에는, 프레임마다의 각 채널의 인코딩된 데이터, 각 채널의 우선도 정보, 각 오브젝트의 인코딩된 데이터, 각 오브젝트의 우선도 정보 및 각 오브젝트의 메타데이터가 포함된다.
여기서, 하나의 프레임의 비트 스트림에 저장되는 M 개의 채널 각각의 오디오 신호 및 N 개의 오브젝트 각각의 오디오 신호는 동시에 재생될 동일 프레임의 오디오 신호들이다.
여기서, 각 채널 또는 각 오브젝트의 오디오 신호의 우선도 정보로서, 하나의 프레임의 각각의 오디오 신호에 대해 우선도 정보가 생성되는 예가 설명된다. 그러나 하나의 우선도 정보 아이템은, 예를 들어 미리 결정된 시간의 단위 내에서 여러 프레임의 오디오 신호에 대해 생성될 수 있다.
<채널 오디오 인코딩 유닛의 구성예>
또한, 도 5의 채널 오디오 인코딩 유닛(21)의 더욱 상세한 구성은, 예를 들어 도 6에 도시된 바와 같이 구성된다.
도 6에 도시된 채널 오디오 인코딩 유닛(21)은 인코딩 유닛(51) 및 우선도 정보 생성 유닛(52)를 포함한다.
인코딩 유닛(51)은 MDCT 유닛(61)을 포함하고, 인코딩 유닛(51)은 외부로부터 공급된 각 채널의 오디오 신호를 인코딩한다.
즉, MDCT 유닛(61)은 외부로부터 공급된 각 채널의 오디오 신호에 대해 MDCT를 수행한다. 인코딩 유닛(51)은 MDCT에 의해 획득된 각 채널의 MDCT 계수를 인코딩하고, 인코딩에 의한 결과로서 획득된 각 채널의 인코딩된 데이터, 즉 인코딩된 오디오 신호를 패킹 유닛(24)에 공급한다.
또한, 우선도 정보 생성 유닛(52)는 외부로부터 공급된 각 채널의 오디오 신호를 해석하고, 각 채널의 오디오 신호의 우선도 정보를 생성하고, 그 우선도 정보를 패킹 유닛(24)에 공급한다.
<오브젝트 오디오 인코딩 유닛의 구성예>
또한, 도 5의 오브젝트 오디오 인코딩 유닛(22)의 더욱 상세한 구성은, 예를 들어 도 7에 도시된 바와 같이 구성된다.
도 7에 도시된 오브젝트 오디오 인코딩 유닛(22)은 인코딩 유닛(91) 및 우선도 정보 생성 유닛(92)를 포함한다.
인코딩 유닛(91)은 MDCT 유닛(101)을 포함하고, 인코딩 유닛(91)은 외부로부터 공급된 각 오브젝트의 오디오 신호를 인코딩한다.
즉, MDCT 유닛(101)은 외부로부터 공급된 각 오브젝트의 오디오 신호에 대해 MDCT를 수행한다. 인코딩 유닛(91)은 MDCT에 의해 획득된 각 채널의 MDCT 계수를 인코딩하고, 인코딩에 의한 결과로서 획득된 각 오브젝트의 인코딩된 데이터, 즉 인코딩된 오디오 신호를 패킹 유닛(24)에 공급한다.
또한, 우선도 정보 생성 유닛(92)은 외부로부터 공급된 각 오브젝트의 오디오 신호를 해석하고, 각 오브젝트의 오디오 신호의 우선도 정보를 생성하고, 그 우선도 정보를 패킹 유닛(24)에 공급한다.
<인코딩 처리의 설명>
이어서, 인코딩 장치(11)에 의해 수행되는 처리에 대해 설명한다.
동시에 재생되는 복수의 채널의 오디오 신호 및 복수의 오브젝트의 오디오 신호가 하나의 프레임에만 공급될 때, 인코딩 장치(11)는 인코딩 처리를 수행하고, 인코딩된 오디오 신호를 포함하는 비트 스트림을 출력한다.
이하에서는, 도 8의 흐름도를 참고하여, 인코딩 장치(11)에 의한 인코딩 처리에 대해 설명한다. 인코딩 처리는 오디오 신호의 프레임마다 수행된다.
단계 S11에서, 채널 오디오 인코딩 유닛(21)의 우선도 정보 생성 유닛(52)은 각 채널의 공급된 오디오 신호의 우선도 정보를 생성하고, 그 우선도 정보를 패킹 유닛(24)에 공급한다. 예를 들어, 우선도 정보 생성 유닛(52)은 채널마다 오디오 신호를 해석하고, 오디오 신호의 음압 또는 스펙트럼 형상과, 채널들 간의 스펙트럼 형상들의 상관에 기초하여 우선도 정보를 생성한다.
단계 S12에서, 패킹 유닛(24)은 우선도 정보 생성 유닛(52)으로부터 공급된 각 채널의 오디오 신호의 우선도 정보를 비트 스트림의 DSE에 저장한다. 즉, 우선도 정보는 비트 스트림의 선두 요소(head element)에 저장된다.
단계 S13에서, 오브젝트 오디오 인코딩 유닛(22)의 우선도 정보 생성 유닛(92)은 각 오브젝트의 공급된 오디오 신호의 우선도 정보를 생성하고, 그 우선도 정보를 패킹 유닛(24)에 공급한다. 예를 들어, 우선도 정보 생성 유닛(92)은 오브젝트마다 오디오 신호를 해석하고, 오디오 신호의 음압 또는 스펙트럼 형상과, 채널들 간의 스펙트럼 형상의 상관에 기초하여 우선도 정보를 생성한다.
각 채널 또는 각 오브젝트의 오디오 신호의 우선도 정보가 생성될 때, 우선도 정보의 값인 우선도마다, 우선도가 할당되는 오디오 신호들의 수는 채널 수 또는 오브젝트 수에 대해 미리 결정될 수 있다.
예를 들어, 도 3의 예에서, "7"의 우선도 정보가 할당되는 오디오 신호들의 수, 즉 채널 수는 미리 5로 결정될 수 있고, "6"의 우선도 정보가 할당되는 오디오 신호들의 수는 미리 3으로 결정될 수 있다.
단계 S14에서, 패킹 유닛(24)은 우선도 정보 생성 유닛(92)으로부터 공급된 각 오브젝트의 오디오 신호의 우선도 정보를 비트 스트림의 DSE에 저장한다.
단계 S15에서, 패킹 유닛(24)은 각 오브젝트의 메타데이터를 비트 스트림의 DSE에 저장한다.
예를 들어, 메타데이터 입력 유닛(23)은 사용자로부터 입력을 수신하거나, 외부와 통신하거나, 또는 외부 저장 영역으로부터의 판독을 수행함으로써, 각 오브젝트의 메타데이터를 취득하고, 그 메타데이터를 패킹 유닛(24)에 공급한다. 패킹 유닛(24)은 이와 같이 메타데이터 입력 유닛(23)으로부터 공급된 메타데이터를 DSE에 저장한다.
전술한 처리의 결과로서, 모든 채널의 오디오 신호의 우선도 정보, 모든 오브젝트의 오디오 신호의 우선도 정보 및 모든 오브젝트의 메타데이터가 비트 스트림의 DSE에 저장된다.
단계 S16에서, 채널 오디오 인코딩 유닛(21)의 인코딩 유닛(51)은 각 채널의 공급된 오디오 신호를 인코딩한다.
보다 구체적으로, MDCT 유닛(61)은 각 채널의 오디오 신호에 대해 MDCT를 수행하고, 인코딩 유닛(51)은 MDCT에 의해 획득된 각 채널의 MDCT 계수를 인코딩하고, 인코딩의 결과로서 획득된 각 채널의 인코딩된 데이터를 패킹 유닛(24)에 공급한다.
단계 S17에서, 패킹 유닛(24)은 인코딩 유닛(51)으로부터 공급된 각 채널의 오디오 신호의 인코딩된 데이터를 비트 스트림의 SCE 또는 CPE에 저장한다. 즉, 인코딩된 데이터는 비트 스트림에서 DSE에 이어서 배치되는 각 요소에 저장된다.
단계 S18에서, 오브젝트 오디오 인코딩 유닛(22)의 인코딩 유닛(91)은 각 오브젝트의 공급된 오디오 신호를 인코딩한다.
보다 구체적으로, MDCT 유닛(101)은 각 오브젝트의 오디오 신호에 대해 MDCT를 수행하고, 인코딩 유닛(91)은 MDCT에 의해 획득된 각 채널의 MDCT 계수를 인코딩하고, 인코딩의 결과로서 획득된 각 오브젝트의 인코딩된 데이터를 패킹 유닛(24)에 공급한다.
단계 S19에서, 패킹 유닛(24)은 인코딩 유닛(91)으로부터 공급된 각 오브젝트의 오디오 신호의 인코딩된 데이터를 비트 스트림의 SCE에 저장한다. 즉, 인코딩된 데이터는 비트 스트림에서 DSE 보다 뒤에 배치되는 일부 요소에 저장된다.
전술한 처리의 결과로서, 처리될 프레임들에 관한, 모든 채널의 오디오 신호의 우선도 정보 및 인코딩된 데이터, 모든 오브젝트의 오디오 신호의 우선도 정보 및 인코딩된 데이터, 및 모든 오브젝트의 메타데이터가 저장되는 비트 스트림이 획득될 수 있다.
단계 S20에서, 패킹 유닛(24)은 획득된 비트 스트림을 출력하고, 인코딩 처리를 종료한다.
전술한 바와 같이, 인코딩 장치(11)는 각 채널의 오디오 신호의 우선도 정보, 및 각 오브젝트의 오디오 신호의 우선도 정보를 생성하고, 그 우선도 정보를 비트 스트림에 저장하고, 그 우선도 정보를 출력한다. 따라서, 디코딩 측에서는, 어느 오디오 신호가 더 높은 우선도를 갖는지를 간단히 확인할 수 있다.
이와 같이, 디코딩 측에서는, 우선도 정보에 따라, 인코딩된 오디오 신호의 디코딩을 선택적으로 수행하는 것이 가능하다. 그 결과, 오디오 신호로부터 재생되는 음성의 음질 열화를 최소화하고, 디코딩을 위한 계산량을 감소시킬 수 있다.
특히, 각 오브젝트의 오디오 신호의 우선도 정보를 비트 스트림에 저장함으로써, 디코딩 측에서는, 디코딩을 위한 계산량을 감소시킬 수 있을 뿐 아니라, 그 후의 렌더링 등의 처리를 위한 계산량도 감소시킬 수 있다.
<디코딩 장치의 구성예>
이어서, 전술한 인코딩 장치(11)로부터 출력된 비트 스트림이 입력되고 비트 스트림에 포함되는 인코딩된 데이터를 디코딩하는 디코딩 장치에 대해 설명한다.
그러한 디코딩 장치는, 예를 들어 도 9에 도시된 바와 같이 구성된다.
도 9에 도시된 디코딩 장치(151)는 언패킹/디코딩 유닛(161), 렌더링 유닛(162) 및 믹싱 유닛(163)을 포함한다.
언패킹/디코딩 유닛(161)은 인코딩 장치(11)로부터 출력된 비트 스트림을 취득하고, 비트 스트림의 언패킹 및 디코딩을 수행한다.
언패킹/디코딩 유닛(161)은 언패킹 및 디코딩에 의해 획득된 각 오브젝트의 오디오 신호, 및 각 오브젝트의 메타데이터를 렌더링 유닛(162)에 공급한다. 이때, 언패킹/디코딩 유닛(161)은 비트 스트림에 포함되는 우선도 정보에 따라 각 오브젝트의 인코딩된 데이터의 디코딩을 수행한다.
또한, 언패킹/디코딩 유닛(161)은 언패킹 및 디코딩에 의해 획득된 각 채널의 오디오 신호를 믹싱 유닛(163)에 공급한다. 이때, 언패킹/디코딩 유닛(161)은 비트 스트림에 포함되는 우선도 정보에 따라서 각 채널의 인코딩된 데이터의 디코딩을 수행한다.
렌더링 유닛(162)은 언패킹/디코딩 유닛(161)으로부터 공급된 각 오브젝트의 오디오 신호 및 각 오브젝트의 메타데이터로서의 공간 위치 정보에 기초하여, M개 채널의 오디오 신호를 생성하고, 그 오디오 신호들을 믹싱 유닛(163)에 공급한다. 이때 렌더링 유닛(162)은 각 오브젝트의 음성 이미지가 각 오브젝트의 공간 위치 정보에 의해 나타나는 위치에 정확히 배치는 방식으로 M개 채널 각각의 오디오 신호를 생성한다.
믹싱 유닛(163)은 언패킹/디코딩 유닛(161)으로부터 공급된 각 채널의 오디오 신호, 및 렌더링 유닛(162)으로부터 공급된 각 채널의 오디오 신호를 채널마다 가중치 부여 가산(weighted addition)을 수행하고, 이후 각 채널의 최종 오디오 신호를 생성한다. 믹싱 유닛(163)은 전술한 바와 같이 하여 획득된 각 채널의 최종 오디오 신호를 각 채널에 대응하는 외부 스피커에 공급하여, 음성을 재생한다.
<언패킹/디코딩 유닛의 구성예>
또한, 도 9에 도시된 디코딩 장치(151)의 언패킹/디코딩 유닛(161)은 보다 상세하게, 예를 들어 도 10에 도시된 바와 같이 구성된다.
도 10의 언패킹/디코딩 유닛(161)은 우선도 정보 취득 유닛(191), 채널 오디오 신호 취득 유닛(192), 채널 오디오 신호 디코딩 유닛(193), 출력 선택 유닛(194), 제로 값 출력 유닛(195), IMDCT 유닛(196), 오브젝트 오디오 신호 취득 유닛(197), 오브젝트 오디오 신호 디코딩 유닛(198), 출력 선택 유닛(199), 제로 값 출력 유닛(200) 및 IMDCT 유닛(201)을 포함한다.
우선도 정보 취득 유닛(191)은 공급된 비트 스트림으로부터 각 채널의 오디오 신호의 우선도 정보를 취득하고 그 우선도 정보를 출력 선택 유닛(194)에 공급하고, 비트 스트림으로부터 각 오브젝트의 오디오 신호의 우선도 정보를 취득하고 그 우선도 정보를 출력 선택 유닛(199)에 공급한다.
또한, 우선도 정보 취득 유닛(191)은 공급된 비트 스트림으로부터 각 오브젝트의 메타데이터를 취득하고 그 메타데이터를 렌더링 유닛(162)에 공급하고, 비트 스트림을 채널 오디오 신호 취득 유닛(192) 및 오브젝트 오디오 신호 취득 유닛(197)에 공급한다.
채널 오디오 신호 취득 유닛(192)은 우선도 정보 취득 유닛(191)으로부터 공급된 비트 스트림으로부터 각 채널의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 채널 오디오 신호 디코딩 유닛(193)에 공급한다. 채널 오디오 신호 디코딩 유닛(193)은 채널 오디오 신호 취득 유닛(192)으로부터 공급된 각 채널의 인코딩된 데이터를 디코딩하고, 디코딩의 결과로서 획득된 MDCT 계수를 출력 선택 유닛(194)에 공급한다.
출력 선택 유닛(194)은 우선도 정보 취득 유닛(191)으로부터 공급된 각 채널의 우선도 정보에 기초하여, 채널 오디오 신호 디코딩 유닛(193)으로부터 공급된 각 채널의 MDCT 계수의 출력 목적지를 선택적으로 스위칭한다.
즉, 미리 결정된 채널의 우선도 정보가 미리 결정된 임계치 P 미만인 경우, 출력 선택 유닛(194)은 해당 채널의 MDCT 계수를 값 0으로서 제로 값 출력 유닛(195)에 공급한다. 또한, 미리 결정된 채널의 우선도 정보가 미리 결정된 임계치 P 이상인 경우, 출력 선택 유닛(194)은 채널 오디오 신호 디코딩 유닛(193)으로부터 공급된 해당 채널의 MDCT 계수를 IMDCT 유닛(196)에 공급한다.
제로 값 출력 유닛(195)은 출력 선택 유닛(194)으로부터 공급된 MDCT 계수에 기초하여 오디오 신호를 생성하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다. 이 경우, MDCT 계수는 0이기 때문에, 무음의 오디오 신호가 생성된다.
IMDCT 유닛(196)은 출력 선택 유닛(194)으로부터 공급된 MDCT 계수에 기초하여 IMDCT를 수행해서 오디오 신호를 생성하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다.
오브젝트 오디오 신호 취득 유닛(197)은 우선도 정보 취득 유닛(191)으로부터 공급된 비트 스트림으로부터 각 오브젝트의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 오브젝트 오디오 신호 디코딩 유닛(198)에 공급한다. 오브젝트 오디오 신호 디코딩 유닛(198)은 오브젝트 오디오 신호 취득 유닛(197)으로부터 공급된 각 오브젝트의 인코딩된 데이터를 디코딩하고, 디코딩의 결과로부터 획득된 MDCT 계수를 출력 선택 유닛(199)에 공급한다.
출력 선택 유닛(199)은 우선도 정보 취득 유닛(191)으로부터 공급된 각 오브젝트의 우선도 정보에 기초하여, 오브젝트 오디오 신호 디코딩 유닛(198)으로부터 공급된 각 채널의 MDCT 계수의 출력 목적지를 선택적으로 스위칭한다.
즉, 미리 결정된 오브젝트의 우선도 정보가 미리 결정된 임계치 Q 미만인 경우, 출력 선택 유닛(199)은 해당 오브젝트의 MDCT 계수를 값 0으로서 제로 값 출력 유닛(200)에 공급한다. 또한, 미리 결정된 오브젝트의 우선도 정보가 미리 결정된 임계치 Q 이상인 경우, 출력 선택 유닛(199)은 오브젝트 오디오 신호 디코딩 유닛(198)으로부터 공급된 해당 오브젝트의 MDCT 계수를 IMDCT 유닛(201)에 공급한다.
임계치 Q의 값은 임계치 P의 값과 동일할 수 있거나, 또는 임계치 P의 값과 상이한 값일 수 있다. 디코딩 장치(151)의 계산 능력 등에 따라 적절하게 임계치 P 및 임계치 Q를 결정함으로써, 오디오 신호를 디코딩하기 위한 계산량을, 디코딩 장치(151)가 실시간으로 디코딩을 수행할 수 있는 범위 내의 계산량까지 감소시킬 수 있다.
제로 값 출력 유닛(200)은 출력 선택 유닛(199)으로부터 공급된 MDCT 계수에 기초하여 오디오 신호를 생성하고, 그 오디오 신호를 렌더링 유닛(162)에 공급한다. 이 경우, MDCT 계수가 0이기 때문에, 무음의 오디오 신호가 생성된다.
IMDCT 유닛(201)은 출력 선택 유닛(199)으로부터 공급된 MDCT 계수에 기초하여 IMDCT를 수행해서 오디오 신호를 생성하고, 그 오디오 신호를 렌더링 유닛(162)에 공급한다.
<디코딩 처리의 설명>
이어서, 디코딩 장치(151)의 동작에 대해 설명한다.
인코딩 장치(11)로부터 하나의 프레임의 비트 스트림이 공급될 때, 디코딩 장치(151)는 디코딩 처리를 수행해서 오디오 신호를 생성하고, 그 오디오 신호를 스피커에 출력한다. 이하, 도 11의 흐름도를 참고하여, 디코딩 장치(151)에 의해 수행되는 디코딩 처리에 대해 설명한다.
단계 S51에서, 언패킹/디코딩 유닛(161)은 인코딩 장치(11)로부터 송신된 비트 스트림을 취득한다. 즉, 비트 스트림이 수신된다.
단계 S52에서, 언패킹/디코딩 유닛(161)은 선택적 디코딩 처리를 수행한다.
선택적 디코딩 처리의 상세는 이하에서 설명되지만, 선택적 디코딩 처리에서는 각 채널의 인코딩된 데이터 및 각 오브젝트의 인코딩된 데이터가 우선도 정보에 기초하여 선택적으로 디코딩된다. 그 후, 선택적 디코딩의 결과로서 획득된 각 채널의 오디오 신호가 믹싱 유닛(163)에 공급되고, 선택적 디코딩의 결과로서 획득된 각 오브젝트의 오디오 신호가 렌더링 유닛(162)에 공급된다. 또한, 비트 스트림으로부터 획득된 각 오브젝트의 메타데이터가 렌더링 유닛(162)에 공급된다.
단계 S53에서, 렌더링 유닛(162)은 언패킹/디코딩 유닛(161)으로부터 공급된 각 오브젝트의 오디오 신호 및 각 오브젝트의 메타데이터로서의 공간 위치 정보에 기초하여, 각 오브젝트의 오디오 신호의 렌더링을 수행한다.
예를 들어, 렌더링 유닛(162)은 각 오브젝트의 음성 이미지가 공간 위치 정보에 의해 나타나는 위치에 정확히 배치되는 방식으로 공간 위치 정보에 기초하여 VBAP(Vector Base Amplitude Panning)에 의해 각 채널의 오디오 신호를 생성하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다.
단계 S54에서, 믹싱 유닛(163)은 언패킹/디코딩 유닛(161)으로부터 공급된 각 채널의 오디오 신호, 및 렌더링 유닛(162)으로부터 공급된 각 채널의 오디오 신호를 채널마다 가중치 부여 가산을 수행하고, 가산된 오디오 신호를 외부 스피커에 공급한다. 이와 같이, 각 채널의 오디오 신호는 각 채널에 대응하는 각 스피커에 공급되고, 따라서 음성은 각각의 스피커에 공급된 오디오 신호에 기초하여 재생된다.
각 채널의 오디오 신호가 스피커에 공급될 때, 디코딩 처리는 종료한다.
전술한 바와 같이, 디코딩 장치(151)는 비트 스트림으로부터 우선도 정보를 취득하고, 그 우선도 정보에 따라 각 채널 및 각 오브젝트의 인코딩된 데이터를 디코딩한다.
<선택적 디코딩 처리의 설명>
계속해서, 도 12의 흐름도를 참고하여, 도 11의 단계 S52의 처리에 대응하는 선택적 디코딩 처리에 대해 설명한다.
단계 S81에서, 우선도 정보 취득 유닛(191)은 공급된 비트 스트림으로부터, 각 채널의 오디오 신호의 우선도 정보 및 각 오브젝트의 오디오 신호의 우선도 정보를 취득하고, 우선도 정보 아이템의 각각의 아이템을 출력 선택 유닛(194) 및 출력 선택 유닛(199)에 각각 공급한다.
또한, 우선도 정보 취득 유닛(191)은 비트 스트림으로부터 각 오브젝트의 메타데이터를 취득해서 그 메타데이터를 렌더링 유닛(162)에 공급하고, 비트 스트림을 채널 오디오 신호 취득 유닛(192) 및 오브젝트 오디오 신호 취득 유닛(197)에 공급한다.
단계 S82에서, 채널 오디오 신호 취득 유닛(192)은 처리될 채널에 0의 채널 번호를 설정하고, 그 채널 번호를 유지한다.
단계 S83에서, 채널 오디오 신호 취득 유닛(192)은 유지된 채널 번호가 채널 수 M 미만 인지를 결정한다.
단계 S83에서, 채널 번호가 M 미만인 경우, 단계 S84에서, 채널 오디오 신호 디코딩 유닛(193)은 처리될 채널의 오디오 신호의 인코딩된 데이터를 디코딩한다.
즉, 채널 오디오 신호 취득 유닛(192)은 우선도 정보 취득 유닛(191)으로부터 공급된 비트 스트림으로부터, 처리될 대상 채널의 인코딩된 데이터를 취득하고 그 인코딩된 데이터를 채널 오디오 신호 디코딩 유닛(193)에 공급한다.
그 후, 채널 오디오 신호 디코딩 유닛(193)은 채널 오디오 신호 취득 유닛(192)으로부터 공급된 인코딩 데이터를 디코딩하고, 디코딩의 결과로서 획득된 MDCT 계수를 출력 선택 유닛(194)에 공급한다.
단계 S85에서, 출력 선택 유닛(194)은 우선도 정보 취득 유닛(191)으로부터 공급된 처리될 대상 채널의 우선도 정보가 예시되지 않은 상위 레벨의 제어 장치에 의해 특정된 임계치 P 이상인지를 결정한다. 여기서, 임계치 P는, 예를 들어 디코딩 장치(151)의 계산 능력에 따라서 결정된다.
단계 S85에서, 우선도 정보가 임계치 P 이상이라고 결정된 경우, 출력 선택 유닛(194)은 채널 오디오 신호 디코딩 유닛(193)으로부터 공급된, 처리될 대상 채널의 MDCT 계수를 IMDCT 유닛(196)에 공급하고, 처리는 단계 S86로 진행한다. 이 경우, 처리될 대상 채널의 오디오 신호의 우선도는 미리 결정된 우선도 이상이 된다. 따라서, 해당 채널에 관한 디코딩, 보다 상세하게는 IMDCT가 수행된다.
단계 S86에서, IMDCT 유닛(196)은 출력 선택 유닛(194)으로부터 공급된 MDCT 계수에 기초하여 IMDCT를 수행하고, 처리될 대상 채널의 오디오 신호를 생성하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다. 오디오 신호가 생성된 후, 처리는 단계 S87로 진행한다.
한편, 단계 S85에서, 우선도 정보가 임계치 P 미만이라고 결정된 경우, 출력 선택 유닛(194)은 MDCT 계수를 0 값으로서 제로 값 출력 유닛(195)에 공급한다.
제로 값 출력 유닛(195)은 출력 선택 유닛(194)으로부터 공급된 0의 값의 MDCT 계수로부터, 처리될 대상 채널의 오디오 신호를 생성하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다. 따라서, 제로 값 출력 유닛(195)에서는, IMDCT와 같은 오디오 신호를 생성하기 위한 처리가 실질적으로 수행되지 않는다.
제로 값 출력 유닛(195)에 의해 생성된 오디오 신호는 무음 신호이다. 오디오 신호가 생성된 후, 처리는 단계 S87로 진행한다.
단계 S85에서 우선도 정보가 임계치 P 미만이라고 결정되거나 또는 단계 S86에서 오디오 신호가 생성되는 경우, 단계 S87에서, 채널 오디오 신호 취득 유닛(192)은 유지된 채널 번호에 1을 더해, 처리될 대상 채널의 채널 번호를 업데이트한다.
채널 번호가 업데이트된 후, 프로세스는 단계 S83으로 복귀하고, 상술한 처리가 반복해서 수행된다. 즉, 처리될 새로운 대상 채널의 오디오 신호가 생성된다.
또한, 단계 S83에서, 처리될 대상 채널의 채널 번호가 M 미만이 아니라고 결정된 경우, 모든 채널의 오디오 신호들이 획득되었기 때문에, 프로세스는 단계 S88로 진행한다.
단계 S88에서, 오브젝트 오디오 신호 취득 유닛(197)은 처리될 대상의 오브젝트에 오브젝트 번호를 0으로 설정하고, 그 오브젝트 번호를 유지한다.
단계 S89에서, 오브젝트 오디오 신호 취득 유닛(197)은 유지된 오브젝트 번호가 오브젝트 수 N 미만 인지를 결정한다.
단계 S89에서, 오브젝트 번호가 N 미만이라고 결정된 경우, 단계 S90에서, 오브젝트 오디오 신호 디코딩 유닛(198)은 처리될 대상 오브젝트의 오디오 신호의 인코딩된 데이터를 디코딩한다.
즉, 오브젝트 오디오 신호 취득 유닛(197)은 우선도 정보 취득 유닛(191)으로부터 공급된 비트 스트림으로부터, 처리될 대상 오브젝트의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 오브젝트 오디오 신호 디코딩 유닛(198)에 공급한다.
그 후, 오브젝트 오디오 신호 디코딩 유닛(198)은 오브젝트 오디오 신호 취득 유닛(197)으로부터 공급된 인코딩된 데이터를 디코딩하고, 디코딩의 결과로서 획득된 MDCT 계수를 출력 선택 유닛(199)에 공급한다.
단계 S91에서, 출력 선택 유닛(199)은 우선도 정보 취득 유닛(191)으로부터 공급된 처리될 대상 오브젝트의 우선도 정보가 예시되지 않은 상위 레벨의 제어 장치에 의해 특정된 임계치 Q 이상인지를 결정한다. 여기서 임계치 Q는, 예를 들어 디코딩 장치(151)의 계산 능력에 따라 결정된다.
단계 S91에서 우선도 정보가 임계치 Q 이상이라고 결정된 경우, 출력 선택 유닛(199)은 오브젝트 오디오 신호 디코딩 유닛(198)으로부터 공급된, 처리될 대상 오브젝트의 MDCT 계수를 IMDCT 유닛(201)에 공급하고, 프로세스는 단계 S92로 진행한다.
단계 S92에서, IMDCT 유닛(201)은 출력 선택 유닛(199)으로부터 공급된 MDCT 계수에 기초하여 IMDCT를 수행하고, 처리될 대상 오브젝트의 오디오 신호를 생성하고, 그 오디오 신호를 렌더링 유닛(162)에 공급한다. 오디오 신호가 생성된 후, 처리는 단계 S93으로 진행한다.
한편, 단계 S91에서 우선도 정보가 임계치 Q 미만이라고 결정된 경우, 출력 선택 유닛(199)은 MDCT 계수를 0 값으로서 제로 값 출력 유닛(200)에 공급한다.
제로 값 출력 유닛(200)은 출력 선택 유닛(199)으로부터 공급된 0의 값의 MDCT 계수로부터, 처리될 대상 오브젝트의 오디오 신호를 생성하고, 그 오디오 신호를 렌더링 유닛(162)에 공급한다. 따라서, 제로 값 출력 유닛(200)에서는, IMDCT와 같은 오디오 신호를 생성하기 위한 처리가 실질적으로 수행되지 않는다.
제로 값 출력 유닛(200)에 의해 생성된 오디오 신호는 무음 신호가 된다. 오디오 신호가 생성된 후, 프로세스는 단계 S93으로 진행한다.
단계 S91에서 우선도 정보가 임계치 Q 미만이라고 결정되거나 또는 단계 S92에서 오디오 신호가 생성되는 경우, 단계 S93에서, 오브젝트 오디오 신호 취득 유닛(197)은 유지된 오브젝트 번호에 1을 더해서, 처리될 대상 오브젝트의 오브젝트 번호를 업데이트한다.
채널 번호가 업데이트된 후, 프로세스는 단계 S89로 복귀하고, 상술한 처리가 반복해서 수행된다. 즉, 처리될 새로운 대상 오브젝트의 오디오 신호가 생성된다.
또한, 단계 S89에서, 처리될 대상 채널의 채널 번호가 M 미만이 아니라고 결정된 경우, 모든 채널 및 모든 오브젝트의 오디오 신호들이 획득되었기 때문에, 선택적 디코딩 처리는 종료하고, 그 후, 프로세스는 도 11의 단계 S53으로 진행한다.
전술한 바와 같이, 디코딩 장치(151)는 각 채널 또는 각 오브젝트의 우선도 정보 및 임계치를 비교하고, 처리될 프레임의 각 채널 또는 각 오브젝트마다 인코딩된 오디오 신호의 디코딩을 수행할지를 결정하면서, 상기 인코딩된 오디오 신호를 디코딩한다.
즉, 디코딩 장치(151)에서는, 각 오디오 신호의 우선도 정보에 따른 인코딩된 오디오 신호들의 미리 결정된 수만이 디코딩되고, 나머지 오디오 신호들은 디코딩되지 않는다.
이와 같이, 재생 환경에 부합하게, 우선도가 높은 오디오 신호만이 선택적으로 디코딩될 수 있다. 따라서, 오디오 신호로부터 재생되는 음성의 음질 열화를 최소화하고, 디코딩을 위한 계산량을 감소시킬 수 있다.
게다가, 인코딩된 오디오 신호의 디코딩은 각 오브젝트의 오디오 신호의 우선도 정보에 기초하여 수행된다. 따라서, 오디오 신호를 디코딩하기 위한 계산량뿐만 아니라, 렌더링 유닛(162)에서의 처리와 같은, 그 후의 처리를 위한 계산량도 감소시킬 수 있다.
<제1 실시예의 변형예 1>
<우선도 정보>
상기 설명에서는, 하나의 우선도 정보 아이템이 각 채널 및 각 오브젝트의 하나의 오디오 신호에 대해 생성된다. 그러나 복수의 우선도 정보 아이템이 생성될 수 있다.
이 경우, 예를 들어 복수의 우선도 정보 아이템은 디코딩을 위한 계산량, 즉 디코딩 측에서의 계산 능력에 따라, 계산 능력마다 생성된다.
구체적으로는, 예를 들어 2개의 채널에 상응하는 계산 능력을 갖는 디바이스에 대한 우선도 정보 아이템들은 2개의 채널에 상응하는 오디오 신호들을 실시간으로 디코딩하기 위한 계산량에 기초하여 생성된다.
2개의 채널에 상응하는 디바이스를 위한 우선도 정보 아이템에는, 예를 들어 모든 오디오 신호 중에서, 낮은 우선도, 즉 0에 가까운 값이 우선도 정보로서 할당되는 오디오 신호들의 수가 커지도록 우선도 정보 아이템들이 생성된다.
또한, 예를 들어 24개 채널에 상응하는 계산 능력을 갖는 디바이스를 위한 우선도 정보 아이템들도 24개 채널에 상응하는 오디오 신호를 실시간으로 디코딩하기 위한 계산량에 기초하여 생성된다. 24개 채널에 상응하는 디바이스를 위한 우선도 정보 아이템에는, 예를 들어 모든 오디오 신호 중에서, 높은 우선도, 즉 7에 가까운 값이 우선도 정보로서 할당되는 오디오 신호들의 수가 커지도록 우선도 정보 아이템들이 생성된다.
이 경우, 예를 들어 우선도 정보 생성 유닛(52)은 도 8의 단계 S11에서, 각 채널의 오디오 신호에 대해 2개 채널에 상응하는 디바이스를 위한 우선도 정보를 생성하고, 우선도 정보 아이템들이 2개 채널에 상응하는 디바이스를 위한 것임을 나타내는 식별자를 우선도 정보 아이템들에 추가하고, 이후 그 우선도 정보 아이템들을 패킹 유닛(24)에 공급한다.
또한, 우선도 정보 생성 유닛(52)은 단계 S11에서, 각 채널의 오디오 신호에 대해 24개 채널에 상응하는 디바이스를 위한 우선도 정보를 생성하고, 우선도 정보 아이템들이 24개 채널에 상응하는 디바이스를 위한 것임을 나타내는 식별자를 우선도 정보 아이템들에 추가하고, 이후 그 우선도 정보 아이템들을 패킹 유닛(24)에 공급한다.
유사하게, 우선도 정보 생성 유닛(92)은 또한 도 8의 단계 S13에서, 2개 채널에 상응하는 디바이스를 위한 우선도 정보, 및 24개 채널에 상응하는 디바이스를 위한 우선도 정보를 생성하고, 식별자를 추가하고, 이후 그 우선도 정보 아이템들을 패킹 유닛(24)에 공급한다.
이와 같이, 복수의 우선도 정보 아이템은, 예를 들어 휴대용 오디오 플레이어, 다기능 이동 전화, 태블릿형 컴퓨터, 텔레비전 수상기, 퍼스널 컴퓨터, 고품질 음향 설비와 같은 재생 디바이스의 계산 능력에 따라 획득된다.
예를 들어, 휴대용 오디오 플레이어와 같은 재생 디바이들의 계산 능력은 비교적 낮다. 따라서, 그러한 재생 디바이스에서는, 인코딩된 오디오 신호가 2개 채널에 상응하는 디바이스를 위한 우선도 정보에 기초해서 디코딩되는 경우, 실시간으로 오디오 신호의 재생을 수행할 수 있다.
전술한 바와 같이, 복수의 우선도 정보 아이템이 하나의 오디오 신호에 대해 생성되는 경우, 디코딩 장치(151)에서, 예를 들어 우선도 정보 취득 유닛(191)은 상위 레벨의 제어 디바이스에 의해, 복수의 우선도 정보 아이템 중 어느 우선도 정보가 디코딩을 수행하기 위해 사용될지를 결정하도록 지시된다. 어느 우선도 정보가 사용될지를 결정하기 위한 지시는, 예를 들어 식별자를 공급함으로써 수행된다.
식별자의 어느 우선도 정보가 사용될지의 결정은 디코딩 장치(151) 마다 미리 정해질 수 있다.
예를 들어, 우선도 정보 취득 유닛(191)에서, 미리 식별자의 우선도 정보를 사용하기로 결정된 경우 또는 식별자가 상위 레벨의 제어 장치에 의해 지정된 경우, 도 12의 단계 S81에서, 우선도 정보 취득 유닛(191)은 결정된 식별자가 추가되는 우선도 정보를 취득한다. 그 후, 취득된 우선도 정보는 우선도 정보 취득 유닛(191)으로부터 출력 선택 유닛(194) 또는 출력 선택 유닛(199)에 공급된다.
달리 말하자면, 비트 스트림에 저장된 복수의 우선도 정보 아이템 중에서, 하나의 적절한 우선도 정보 아이템은 디코딩 장치(151), 구체적으로는 언패킹/디코딩 유닛(161)의 계산 능력에 따라 선택된다.
이 경우, 상이한 식별자들은 각 채널의 우선도 정보 및 각 오브젝트의 우선도 정보에 이용될 수 있으며, 우선도 정보는 비트 스트림으로부터 판독될 수 있다.
전술한 바와 같이, 비트 스트림에 포함되는 복수의 우선도 정보 아이템 중에서 특정한 우선도 정보 아이템을 선택적으로 취득함으로써, 디코딩 장치(151)의 계산 능력에 따라 적절한 우선도 정보를 선택하고 디코딩을 수행하는 것이 가능하다. 이와 같이, 디코딩 장치들(151) 중 어느 하나에서 실시간으로 오디오 신호를 재생하는 것이 가능하다.
<제2 실시예>
<언패킹/디코딩 유닛의 구성예>
상기 설명에서는, 우선도 정보가 인코딩 장치(11)로부터 출력되는 비트 스트림에 포함되는 예를 설명했다. 그러나 인코딩 장치들에 따라서, 우선도 정보는 비트 스트림에 포함되거나 포함되지 않을 수 있다.
따라서, 우선도 정보는 디코딩 장치(151)에서 생성될 수 있다. 예를 들어, 우선도 정보는 비트 스트림에 포함된 오디오 신호의 인코딩된 데이터로부터 추출될 수 있는, 오디오 신호의 음압을 나타내는 정보 또는 스펙트럼 형상을 나타내는 정보를 사용해서 생성될 수 있다.
전술한 바와 같이 우선도 정보가 디코딩 장치(151)에서 생성되는 경우, 디코딩 장치(151)의 언패킹/디코딩 유닛(161)은, 예를 들어 도 13에 도시된 바와 같이 구성된다. 도 13에서는, 도 10의 경우에 대응하는 부분에 동일한 참조 부호가 부여되고, 그 설명은 반복되지 않을 것이다.
도 13에서의 언패킹/디코딩 유닛(161)은 채널 오디오 신호 취득 유닛(192), 채널 오디오 신호 디코딩 유닛(193), 출력 선택 유닛(194), 제로 값 출력 유닛(195), IMDCT 유닛(196), 오브젝트 오디오 신호 취득 유닛(197), 오브젝트 오디오 신호 디코딩 유닛(198), 출력 선택 유닛(199), 제로 값 출력 유닛(200), IMDCT 유닛(201), 우선도 정보 생성 유닛(231) 및 우선도 정보 생성 유닛(232)을 포함한다.
도 13에 도시된 언패킹/디코딩 유닛(161)의 구성은, 우선도 정보 생성 유닛(231) 및 우선도 정보 생성 유닛(232)이 우선도 정보 취득 유닛(191)의 제공 없이 새롭게 제공된다는 점에서 도 10예 예시된 언패킹/디코딩 유닛(161)과 상 이하고, 다른 구성은 도 10의 언패킹/디코딩 유닛(161)과 동일하다.
채널 오디오 신호 취득 유닛(192)은 공급된 비트 스트림으로부터 각 채널의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 채널 오디오 신호 디코딩 유닛(193) 및 우선도 정보 생성 유닛(231)에 공급한다.
우선도 정보 생성 유닛(231)은 채널 오디오 신호 취득 유닛(192)으로부터 공급된 각 채널의 인코딩된 데이터에 기초하여 각 채널의 우선도 정보를 생성하고, 그 우선도 정보를 출력 선택 유닛(194)에 공급한다.
오브젝트 오디오 신호 취득 유닛(197)은 공급된 비트 스트림으로부터 각 오브젝트의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 오브젝트 오디오 신호 디코딩 유닛(198) 및 우선도 정보 생성 유닛(232)에 공급한다. 또한, 오브젝트 오디오 신호 취득 유닛(197)은 공급된 비트 스트림으로부터 각 오브젝트의 메타데이터를 취득하고, 그 메타데이터를 렌더링 유닛(162)에 공급한다.
우선도 정보 생성 유닛(232)은 오브젝트 오디오 신호 취득 유닛(197)으로부터 공급된 각 오브젝트의 인코딩 데이터에 기초하여 각 오브젝트의 우선도 정보를 생성하고, 그 우선도 정보를 출력 선택 유닛(199)에 공급한다.
<선택적 디코딩 처리의 설명>
언패킹/디코딩 유닛(161)이 도 13에 도시된 바와 같이 구성된 경우, 디코딩 장치(151)는 도 11에 나타낸 디코딩 처리의 단계 S52에 대응하는 처리로서, 도 14에 나타낸 선택적 디코딩 처리를 수행한다. 이하에서는, 도 14의 흐름도를 참고하여, 디코딩 장치(151)에 의한 선택적 디코딩 처리가 설명될 것이다.
단계 S131에서, 우선도 정보 생성 유닛(231)은 각 채널의 우선도 정보를 생성한다.
예를 들어, 채널 오디오 신호 취득 유닛(192)은 공급된 비트 스트림으로부터 각 채널의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 채널 오디오 신호 디코딩 유닛(193) 및 우선도 정보 생성 유닛(231)에 공급한다.
우선도 정보 생성 유닛(231)은 채널 오디오 신호 취득 유닛(192)으로부터 공급된 각 채널의 인코딩된 데이터에 기초하여 각 채널의 우선도 정보를 생성하고, 그 우선도 정보를 출력 선택 유닛(194)에 공급한다.
예를 들어, 비트 스트림에는, MDCT 계수를 획득하기 위한 스케일 팩터, 사이드 정보 및 양자화된 스펙트럼이 오디오 신호의 인코딩된 데이터로서 포함된다. 여기서, 스케일 팩터는 오디오 신호의 음압을 나타내는 정보이며, 양자화된 스펙트럼은 오디오 신호의 스펙트럼 형상을 나타내는 정보이다.
우선도 정보 생성 유닛(231)은 각 채널의 인코딩된 데이터로서 포함된 스케일 팩터 및 양자화된 스펙트럼에 기초하여 각 채널의 오디오 신호의 우선도 정보를 생성한다. 우선도 정보가 이와 같이 스케일 팩터 및 양자화된 스펙트럼을 사용해서 생성되는 경우, 우선도 정보는 인코딩된 데이터의 디코딩을 수행하기 전에 즉시 획득될 수 있고, 따라서 우선도 정보를 생성하기 위한 계산량을 감소시킬 수 있다.
또한, 우선도 정보는 MDCT 계수의 제곱 평균값을 계산함으로써 획득될 수 있는 오디오 신호의 음압, 또는 MDCT 계수의 피크 엔벨로프(peak envelope)로부터 획득될 수 있는 오디오 신호의 스펙트럼 형상에 기초하여 생성될 수 있다. 이 경우, 우선도 정보 생성 유닛(231)은 적절히, 인코딩된 데이터의 디코딩을 수행하거나, 채널 오디오 신호 디코딩 유닛(193)로부터 MDCT 계수를 취득한다.
각 채널의 우선도 정보가 획득된 후, 단계 S132 내지 단계 S137의 처리 작업들이 수행되지만, 이들 처리 작업은 도 12에서의 단계 S82 내지 단계 S87의 처리 작업과 동일하다. 따라서, 그 설명은 반복되지 않을 것이다. 그러나 이 경우, 이미 각 채널의 인코딩된 데이터가 취득되었기 때문에, 단계 S134에서는 인코딩된 데이터의 디코딩만이 수행된다.
또한, 단계 S133에서, 채널 번호가 M 미만이 아니라고 결정되는 경우, 단계 S138에서, 우선도 정보 생성 유닛(232)은 각 오브젝트의 오디오 신호의 우선도 정보를 생성한다.
예를 들어, 오브젝트 오디오 신호 취득 유닛(197)은 공급된 비트 스트림으로부터 각 오브젝트의 인코딩된 데이터를 취득하고, 그 인코딩된 데이터를 오브젝트 오디오 신호 디코딩 유닛(198) 및 우선도 정보 생성 유닛(232)에 공급한다. 또한, 오브젝트 오디오 신호 취득 유닛(197)은 공급된 비트 스트림으로부터 각 오브젝트의 메타데이터를 취득하고, 그 메타데이터를 렌더링 유닛(162)에 공급한다.
우선도 정보 생성 유닛(232)은 오브젝트 오디오 신호 취득 유닛(197)으로부터 공급된 각 오브젝트의 인코딩된 데이터에 기초하여 각 오브젝트의 우선도 정보를 생성하고, 그 우선도 정보를 출력 선택 유닛(199)에 공급한다. 예를 들어, 우선도 정보는, 각 채널의 경우와 유사하게, 스케일 팩터 및 양자화된 스펙트럼에 기초하여 생성된다.
또한, 우선도 정보는 MDCT 계수로부터 획득된 음압 또는 스펙트럼 형상에 기초하여 생성될 수 있다. 이 경우, 우선도 정보 생성 유닛(232)은 적절히, 인코딩된 데이터의 디코딩을 수행하거나, 오브젝트 오디오 신호 디코딩 유닛(198)으로부터 MDCT 계수를 취득한다.
각 오브젝트의 우선도 정보가 획득된 후, 단계 S139 내지 단계 S144의 처리 작업이 수행되고, 선택적 디코딩 처리는 종료한다. 그러나 이들 처리 작업은 도 12에서의 단계 S88 내지 단계 S93의 처리 작업과 동일하다. 따라서, 그 설명은 반복되지 않을 것이다. 그러나 이 경우, 이미 각 오브젝트의 인코딩된 데이터가 취득되었기 때문에, 단계 S141에서는 인코딩된 데이터의 디코딩만이 수행된다.
선택적 디코딩 처리가 종료된 후, 프로세스는 도 11의 단계 S53으로 진행한다.
전술한 바와 같이, 디코딩 장치(151)는 비트 스트림에 포함된 인코딩된 데이터에 기초하여, 각 채널 및 각 오브젝트의 오디오 신호의 우선도 정보를 생성한다. 이와 같이 디코딩 장치(151)에서 우선도 정보를 생성함으로써, 각 오디오 신호의 적절한 우선도 정보를 적은 계산량으로 획득하는 것이 가능하고, 따라서 디코딩을 위한 계산량 또는 렌더링을 위한 계산량을 감소시키는 것이 가능하다. 또한, 오디오 신호로부터 재생되는 음성의 음질 열화를 최소화하는 것이 가능하다.
도 10에 도시된 언패킹/디코딩 유닛(161)의 우선도 정보 취득 유닛(191)이 공급된 비트 스트림으로부터 각 채널 및 각 오브젝트의 오디오 신호의 우선도 정보를 취득하려고 시도했지만, 우선도 정보가 비트 스트림으로부터 획득될 수 없는 경우에, 우선도 정보는 생성될 수 있다. 이 경우에, 우선도 정보 취득 유닛(191)은 우선도 정보 생성 유닛(231) 또는 우선도 정보 생성 유닛(232)과 유사한 처리를 수행하고, 인코딩된 데이터로부터 각 채널 및 각 오브젝트의 오디오 신호의 우선도 정보를 생성한다.
<제3 실시예>
<우선도 정보의 임계치>
또한, 상기 설명에서는, 각 채널 및 각 오브젝트에 관하여, 디코딩될 오디오 신호, 구체적으로는 IMDCT가 수행될 MDCT 계수가 우선도 정보와 임계치 P 또는 임계치 Q를 비교해서 선택된다. 그러나 임계치 P 또는 임계치 Q는 오디오 신호의 프레임마다 동적으로 변경될 수 있다.
예를 들어, 도 10에 도시된 언패킹/디코딩 유닛(161)의 우선도 정보 취득 유닛(191)에서는, 디코딩을 수행할 필요없이, 각 채널 및 각 오브젝트의 우선도 정보가 비트 스트림으로부터 취득될 수 있다.
따라서, 예를 들어 우선도 정보 취득 유닛(191)은 모든 채널의 오디오 신호의 우선도 정보를 판독할 필요없이, 처리될 대상 프레임의 우선도 정보의 분포를 획득할 수 있다. 또한, 디코딩 장치(151)는, 예를 들어 얼마나 많은 채널이 동시에, 즉 실시간으로 처리될 수 있는지와 같은 자신의 계산 능력을 미리 알고 있다.
따라서, 우선도 정보 취득 유닛(191)은 처리될 대상 프레임의 우선도 정보의 분포와 디코딩 장치(151)의 계산 능력에 기초하여, 처리될 대상 프레임에 관한 우선도 정보의 임계치 P를 결정할 수 있다.
예를 들어, 임계치 P는 디코딩 장치(151)에 의해 실시간으로 수행되는 처리의 범위 내에 가장 많은 수의 오디오 신호가 디코딩될 수 있도록 결정된다.
또한, 우선도 정보 취득 유닛(191)은 임계치 P의 경우와 유사하게 임계치 Q를 동적으로 결정할 수 있다. 이 경우, 우선도 정보 취득 유닛(191)은 모든 오브젝트의 오디오 신호의 우선도 정보에 기초하여 우선도 정보의 분포를 획득하고, 획득된 분포와 디코딩 장치(151)의 계산 능력에 기초하여, 처리될 대상 프레임에 관한 우선도 정보의 임계치 Q를 결정한다.
임계치 P 또는 임계치 Q의 결정을 비교적 적은 계산량으로 수행하는 것이 가능하다.
이와 같이, 우선도 정보의 임계치를 동적으로 변경함으로써, 디코딩은 실시간으로 수행될 수 있고, 오디오 신호로부터 재생되는 음성의 음질 열화를 최소화하는 것이 가능하다. 특히, 이 경우에는, 우선도 정보 아이템들을 복수로 준비할 필요가 없거나 또는 우선도 정보에 식별자를 제공할 필요가 없다. 따라서, 비트 스트림의 코드의 양도 감소될 수 있다.
<오브젝트의 메타데이터>
또한, 전술한 제1 실시예 내지 제3 실시예에서는 하나의 프레임에 대한 오브젝트의 메타데이터 및 우선도 정보 등이 비트 스트림의 선두 요소에 저장된다.
이 경우, 비트 스트림의 선두 요소에서, 오브젝트의 메타데이터 및 우선도 정보가 저장되는 부분의 신택스는, 예를 들어 도 15에 나타낸 것과 동일하다.
도 15의 예에서, 오브젝트의 메타데이터에는, 단지 하나의 프레임의 오브젝트의 공간 위치 정보 및 우선도 정보가 저장된다.
이 예에서, "num_objects"는 오브젝트의 수를 나타낸다. 또한, "object_priority[0]"은 0번째 오브젝트의 우선도 정보를 나타낸다. 여기서, 0번째 오브젝트는 오브젝트 번호에 의해 특정되는 오브젝트를 의미한다.
"position_azimuth[0]"은 시청자인 사용자로부터 본, 즉 미리 결정된 기준 위치에서 본, 0번째 오브젝트의 3차원 공간 위치를 나타내는 수평 각도를 나타낸다. 또한, "position_elevation[0]"은 시청자인 사용자로부터 본, 0번째 오브젝트의 3차원 공간 위치를 나타내는 수직 각도를 나타낸다. 또한, "position_radius[0]"은 시청자로부터 0번째 오브젝트까지의 거리를 나타낸다.
따라서, 3차원 공간 내의 오브젝트의 위치는 이들 "position_azimuth[0]", "position_elevation[0]" 및 "position_radius[0]"에 의해 특정된다. 이와 같이, 이들 정보 아이템은 오브젝트의 공간 위치 정보 아이템들이 된다.
또한, "gain_factor[0]"는 0번째 오브젝트의 이득을 나타낸다.
이와 같이, 도 15에 나타낸 메타데이터에는, 오브젝트에 관한 "object_priority[0]", "position_azimuth[0]", "position_elevation[0]", "position_radius[0]" 및 "gain_factor[0]"이 해당 오브젝트의 데이터로서 차례로 배치되어 있다. 그 후, 메타데이터 내에는, 각 오브젝트의 데이터 아이템들이, 예를 들어 오브젝트의 오브젝트 번호순으로 어레이에 배치되어 있다.
<제4 실시예>
<오디오 신호의 완전 재구성 및 불연속성에 기인하는 노이즈>
상기 설명에서는, 디코딩 장치(151)에서 비트 스트림으로부터 판독된 채널 또는 오브젝트마다의 각 프레임(이하에서는, 특히 시간 프레임이라고 칭함)의 우선도 정보가, 미리 결정된 임계치 미만일 경우에 IMDCT 등의 디코딩을 생략함으로써 디코딩시의 처리량이 감소되는 예에 대해 설명하였다. 구체적으로, 우선도 정보가 임계치 미만일 경우에, 무음 오디오 신호, 즉 제로 데이터는 제로 값 출력 유닛(195) 또는 제로 값 출력 유닛(200)으로부터 오디오 신호로서 출력된다.
그러나 이 경우에, 음질 열화가 청취시 발생한다. 구체적으로는, 오디오 신호의 완전 재구성에 기인하는 음질 열화, 및 신호의 불연속에 의해 야기되는 글리치 노이즈(glitch noise)와 같은 노이즈에 기인한 음질 열화가 발생한다.
<완전 재구성에 기인하는 음질 열화>
예를 들어, 우선도 정보가 임계치 미만일 경우에 오디오 신호로서 제로 데이터를 출력할 때, 제로 데이터의 출력과, 제로 데이터가 아닌 통상의 오디오 신호의 출력의 스위칭 시에 음질 열화가 발생한다.
상술한 바와 같이, 언패킹/디코딩 유닛(161)에서는, IMDCT 유닛(196) 또는 IMDCT 유닛(201)에서, 비트 스트림으로부터 판독된 시간 프레임마다의 MDCT 계수에 대해 IMDCT가 수행된다. 구체적으로, 언패킹/디코딩 유닛(161)에서는, 현 시간 프레임의 오디오 신호가 현 시간 프레임에 관한 IMDCT의 결과 또는 제로 데이터, 및 1 시간 프레임 이전의 시간 프레임에 관한 IMDCT의 결과 또는 제로 데이터로부터 생성된다.
여기서는, 오디오 신호의 생성이 도 16을 참고하여 설명될 것이다. 여기서는, 오브젝트의 오디오 신호의 생성이 예로서 설명된다. 그러나 각 채널의 오디오 신호의 생성에 대해서도 동일하다. 또한, 이하에서는, 제로 값 출력 유닛(200)으로부터 출력된 오디오 신호 및 IMDCT 유닛(201)으로부터 출력된 오디오 신호가 특히, IMDCT 신호라고도 지칭된다. 유사하게, 제로 값 출력 유닛(195)으로부터 출력된 오디오 신호 및 IMDCT 유닛(196)으로부터 출력된 오디오 신호는 특히, IMDCT 신호라고도 지칭된다.
도 16에서는, 수평 방향은 시간을 나타내고, "data[n-1]" 내지 "data [n+2]"로 라벨링된 직사각형은 각각 미리 결정된 오브젝트의 시간 프레임(n-1) 내지 시간 프레임(n+2)의 비트 스트림을 나타낸다. 또한, 각 시간 프레임의 비트 스트림 내의 값은 해당 시간 프레임의 오브젝트의 우선도 정보의 값을 나타낸다. 이 예에서는 프레임의 우선도 정보의 값은 "7"이다.
또한, 도 16에서 "MDCT_coef[q]"(q=n-1, n,...)로 라벨링된 직사각형은 각각 시간 프레임(q)의 MDCT 계수를 나타낸다.
이하, 임계치 Q가 4와 동일한 경우, 시간 프레임(n-1)의 우선도 정보의 값 "7"은 임계치 Q 이상이 된다. 따라서, IMDCT는 시간 프레임(n-1)의 MDCT 계수에 대해 수행된다. 유사하게, 시간 프레임(n)의 우선도 정보의 값 "7"도 임계치 Q 이상이 된다. 따라서, IMDCT는 시간 프레임(n)의 MDCT 계수에 대해 수행된다.
그 결과, 시간 프레임(n-1)의 IMDCT 신호 OPS11 및 시간 프레임(n)의 IMDCT 신호 OPS12가 획득된다.
이 경우, 언패킹/디코딩 유닛(161)은 시간 프레임(n)의 IMDCT 신호 OPS12의 전반 절반과, 시간 프레임(n)의 1 시간 프레임 전에 있는 시간 프레임(n-1)의 IMDCT 신호 OPS11의 후반 절반을 가산하고, 시간 프레임(n)의 오디오 신호, 즉 기간 FL(n)의 오디오 신호를 획득한다. 달리 말하자면, 기간 FL(n) 내의 IMDCT 신호 OPS11의 부분과, 기간 FL(n) 내의 IMDCT 신호 OPS12의 부분이 중첩 가산되고, 처리될 대상 오브젝트의 인코딩 전의 시간 프레임(n)의 오디오 신호가 재생된다.
이러한 처리는 IMDCT 신호가 MDCT 전의 신호에 대해 완전 재구성될 필요가 있는 처리이다.
그러나, 상술한 언패킹/디코딩 유닛(161)에서는, 예를 들어 도 17에 나타낸 바와 같이, IMDCT 유닛(201)의 IMDCT 신호 및 제로 값 출력 유닛(200)의 IMDCT 신호가 각 시간 프레임의 우선도 정보에 따라 스위칭될 때의 타이밍에서, IMDCT 신호는 MDCT 전의 신호에 대해 완전 재구성되지 않는다. 즉, 제로 데이터가 중첩 가산 시에 원래 신호 대신에 사용되는 경우, 신호는 완전 재구성되지 않는다. 따라서, 원래 신호가 재생되지 않고, 오디오 신호의 청취시 음질이 열화된다.
도 17의 예에서, 도 16의 경우에 대응하는 부분에는 동일한 문자가 기재되고, 그 설명은 반복되지 않을 것이다.
도 17에서, 시간 프레임(n-1)의 우선도 정보의 값은 "7"이지만, 시간 프레임(n) 내지 시간 프레임(n+2)의 우선도 정보 아이템들은 가장 낮은 "0"이 된다.
따라서, 임계치 Q가 4인 경우, 프레임(n-1)에 대한 IMDCT는 IMDCT 유닛(201)에 의해 MDCT 계수에 대해 수행되고, 이후 시간 프레임(n-1)의 IMDCT 신호 OPS21이 획득된다. 한편, 시간 프레임(n)에 대한 IMDCT는 MDCT 계수에 대해 수행되지 않고, 제로 값 출력 유닛(200)으로부터 출력된 제로 데이터는 시간 프레임(n)의 IMDCT 신호 OPS22가 된다.
이 경우, 시간 프레임(n)의 IMDCT 신호 OPS22인 제로 데이터의 전반 절반, 및 시간 프레임(n)의 1 프레임 전에 있는 시간 프레임(n-1)의 IMDCT 신호 OPS21의 후반 절반이 합산되어, 결과는 시간 프레임(n)의 최종 오디오 신호가 된다. 즉, 기간 FL(n) 내의 IMDCT 신호 OPS22 및 IMDCT 신호 OPS21의 부분들이 중첩 가산되어, 결과는 처리될 대상 오브젝트의 시간 프레임(n)의 최종 오디오 신호가 된다.
이와 같이, IMDCT 신호의 출력원이 IMDCT 유닛(201)으로부터 제로 값 출력 유닛(200)으로 스위칭되거나 또는 제로 값 출력 유닛(200)으로부터 IMDCT 유닛(201)으로 스위칭될 때, IMDCT 유닛(201)로부터의 IMDCT 신호는 완전 재구성되지 않고, 청취 시 음질의 열화가 발생한다.
〈불연속성에 기인하는 노이즈의 발생에 의한 음질 열화〉
또한, IMDCT 신호의 출력원이 IMDCT 유닛(201)으로부터 제로 값 출력 유닛(200)으로 스위칭되거나 또는 제로 값 출력 유닛(200)으로부터 IMDCT 유닛(201)으로 스위칭되는 경우, 신호가 완전 재구성되지 않기 때문에, 일부 경우에 IMDCT에 의해 획득된 IMDCT 신호와, 제로 데이터가 되는 IMDCT 신호의 접속 부분에서 신호가 불연속이 된다. 그 결과, 접속 부분에서 글리치 노이즈가 발생하고, 오디오 신호의 청취 시 음질의 열화가 발생한다.
또한, 언패킹/디코딩 유닛(161)에서 음질을 향상시키기 위해서, IMDCT 유닛(201) 및 제로 값 출력 유닛(200)으로부터 출력된 IMDCT 신호를 중첩 가산해서 획득된 오디오 신호에 대해 SBR(Spectral Band Replication) 처리 등이 수행되는 경우가 존재한다.
다양한 처리 작업은 IMDCT 유닛(201) 또는 제로 값 출력 유닛(200)에 후속하는 처리에서 고려될 수 있고, 이하에서는 예로서 SBR의 설명을 계속할 것이다.
SBR에서는, 인코딩 전의 원래 오디오 신호의 고 주파수 성분이 중첩 가산에 의해 획득된 저 주파수 성분의 오디오 신호, 및 비트 스트림에 저장된 고 주파수 파워 값으로부터 생성된다.
구체적으로는, 1 프레임의 오디오 신호가 시간 슬롯들로 불리는 몇 개의 구간으로 분할되고, 각 시간 슬롯의 오디오 신호가 복수의 저 주파수 부대역의 신호(이하, 저 주파수 부대역 신호라고 칭함)로 대역 분할된다.
그 후, 고 주파수의 각 부대역의 신호(이하, 고 주파수 부대역 신호라고 칭함)는 각 부대역의 저 주파수 부대역 신호, 및 고 주파수 측에서의 각 부대역의 파워 값에 기초하여 생성된다. 예를 들어, 타깃 고 주파수 부대역 신호(target high frequency sub-band signal)는 미리 결정된 부대역의 저 주파수 부대역 신호의 파워를 고 주파수의 타깃 부대역의 파워 값으로 조정하거나, 그 주파수를 시프트함으로써 생성된다.
또한, 고 주파수 부대역 신호와 저 주파수 부대역 신호가 합성되어, 고 주파수 성분을 포함하는 오디오 신호가 생성되고, 시간 슬롯마다 생성된 고 주파수 성분을 포함하는 오디오 신호가 결합되어, 결과는 고 주파수 성분을 포함하는 1 시간 프레임의 오디오 신호가 된다.
이런 SBR이 IMDCT 유닛(201) 또는 제로 값 출력 유닛(200)의 후단에서 수행되는 경우, IMDCT 유닛(201)으로부터 출력된 IMDCT 신호로부터 만들어지는 오디오 신호에 대해서는, 고 주파수 성분이 SBR에 의해 생성된다. 그런데, 제로 값 출력 유닛(200)으로부터 출력된 IMDCT 신호가 제로 데이터이기 때문에, 제로 값 출력 유닛(200)으로부터 출력된 IMDCT 신호로부터 만들어지는 오디오 신호에 대해서는, SBR에 의해 획득된 고 주파수 성분도 제로 데이터가 된다.
그 후, IMDCT 신호의 출력원이 IMDCT 유닛(201)으로부터 제로 값 출력 유닛(200)으로 스위칭되거나 또는 제로 값 출력 유닛(200)으로부터 IMDCT 유닛(201)으로 스위칭될 때, 신호는 고 주파수에서도 접속 부분이 불연속이 된다. 그런 경우, 글리치 노이즈가 발생하고, 청취 시 음질 열화가 발생한다.
따라서, 본 기술에서는, MDCT 계수의 출력 목적지가 전후의 시간 프레임들을 고려하여 선택되고, 오디오 신호에 대한 페이드-인(fade-in) 처리 및 페이드- 아웃(fade-out) 처리가 수행되고, 따라서 상술한 청취 시의 음질 열화가 억제되고, 음질이 향상된다.
<전후의 시간 프레임들을 고려한 MDCT 계수의 출력 목적지의 선택>
먼저, 전후의 시간 프레임을 고려한 MDCT 계수의 출력 목적지의 선택이 설명될 것이다. 여기서도, 오브젝트의 오디오 신호를 예로서 설명할 것이다. 그러나 각 채널의 오디오 신호의 경우도 설명이 유사하다. 또한, 이하에 설명되는 처리 작업은 오브젝트 및 채널마다 수행된다.
예를 들어, 상술한 실시예에서는, 출력 선택 유닛(199)이 현 시간 프레임의 우선도 정보에 기초하여 각 오브젝트의 MDCT 계수의 출력 목적지를 선택적으로 스위칭하는 것으로 설명되였다. 한편, 본 실시예에서는, 출력 선택 유닛(199)이 현 시간 프레임, 현 시간 프레임의 1 시간 프레임 전의 시간 프레임 및 현 시간 프레임의 1 시간 프레임 이후의 시간 프레임인, 시간적으로 연속하는 3개의 시간 프레임의 우선도 정보 아이템들에 기초하여, MDCT 계수의 출력 목적지를 스위칭한다. 달리 말하자면, 인코딩된 데이터의 디코딩이 수행되는지의 여부는 연속하는 3개의 시간 프레임의 우선도 정보 아이템들에 기초하여 선택된다.
구체적으로, 출력 선택 유닛(199)은 처리될 대상 오브젝트에 관한 이하의 수학식 1에 나타낸 조건식이 만족될 경우, 오브젝트의 시간 프레임(n)의 MDCT 계수를 IMDCT 유닛(201)에 공급한다.
Figure pct00001
수학식 1에서, object_priority[q](여기서, q=n-1, n, n+1)은 각 시간 프레임(q)의 우선도 정보를 나타내고, thre는 임계치 Q를 나타낸다.
따라서, 현 시간 프레임과, 현 시간 프레임의 전후의 시간 프레임의 3개의 연속하는 시간 프레임 중에서, 우선도 정보가 임계치 Q 이상이 되는 적어도 하나 이상의 시간 프레임이 존재하는 경우, IMDCT 유닛(201)은 MDCT 계수 공급 목적지로서 선택된다. 이 경우, 인코딩된 데이터의 디코딩, 구체적으로는 MDCT 계수에 대한 IMDCT가 수행된다. 한편, 모든 3개의 시간 프레임의 우선도 정보 아이템들이가 임계치 Q 미만인 경우, MDCT 계수가 0이 되고, 제로 값 출력 유닛(200)에 출력된다. 이 경우, 인코딩된 데이터의 디코딩, 구체적으로는 MDCT 계수에 대한 IMDCT가 실질적으로 수행되지 않는다.
이와 같이, 도 18에 나타낸 바와 같이, 오디오 신호는 IMDCT 신호로부터 완전 재구성되고, 청취 시의 음질의 열화가 억제된다. 또한, 도 18에서, 도 16의 경우에 대응하는 부분에는 동일한 문자 등이 기재되고, 그 설명은 반복되지 않을 것이다.
도 18의 상측에 나타낸 예에서는, 각 시간 프레임의 우선도 정보의 값이 도 17에 나타낸 예의 값과 동일하다. 예를 들어, 임계치 Q가 4라고 가정하면, 도 18의 상측에서 시간 프레임(n-1)의 우선도 정보는 임계치 Q 이상이 되지만, 시간 프레임(n) 내지 시간 프레임(n+2)의 우선도 정보 아이템들은 임계치 Q 미만이 된다.
이로 인해, 수학식 1에 나타낸 조건식으로부터, IMDCT는 시간 프레임(n-1) 및 시간 프레임(n)의 MDCT 계수들에 대해 수행되고, 이후 IMDCT 신호 OPS31 및 IMDCT 신호 OPS32가 각각 획득된다. 한편, 조건식이 충족되지 않는 시간 프레임(n+1)에서는, MDCT 계수에 대한 IMDCT가 수행되지 않고, 이후 제로 데이터가 IMDCT 신호 OPS33이 된다.
따라서, 도 17에 나타낸 예에서 완전 재구성되지 않은 시간 프레임(n)의 오디오 신호는 도 18의 상측에 나타낸 예에서 완전 재구성되고, 이후 청취 시의 음질의 열화가 억제된다. 그러나 본 예에서는 오디오 신호가 다음 시간 프레임(n+1)에서 완전 재구성되지 않기 때문에, 후술되는 페이드-아웃 처리는 시간 프레임(n) 및 시간 프레임(n+1)에서 수행되고, 따라서 청취 시의 음질의 열화가 억제된다.
또한, 도 18의 하측에 나타낸 예에서는, 시간 프레임(n-1) 내지 시간 프레임(n+1)에서의 우선도 정보가 임계치 Q 미만이 되고, 시간 프레임(n+2)에서의 우선도 정보가 임계치 Q 이상이 된다.
그런 이유로, 수학식 1에 나타낸 조건식으로부터, IMDCT는 조건식이 충족되지 않는 시간 프레임(n) 내의 MDCT 계수에 대해 수행되지 않고, 이후 제로 데이터는 IMDCT 신호 OPS41이 된다. 한편, IMDCT는 시간 프레임(n+1) 및 시간 프레임(n+2)의 MDCT 계수들에 대해 수행되고, 이후 IMDCT 신호 OPS42 및 IMDCT 신호 OPS43이 각각 획득된다.
본 예에서, 오디오 신호는 우선도 정보의 값이 임계치 Q 미만의 값으로부터 임계치 Q 이상의 값으로 스위칭되는 시간 프레임(n+2)에서 완전 재구성될 수 있다. 따라서, 청취 시의 음질의 열화를 억제할 수 있다. 그러나 이 경우에서도, 시간 프레임(n+2) 직전의 시간 프레임(n+1)의 오디오 신호가 완전 재구성되지 않기 때문에, 후술되는 페이드-인 처리는 시간 프레임(n+1)과 시간 프레임(n+2)에서 수행되고, 따라서, 청취 시의 음질의 열화가 억제된다.
여기서는, 단지 하나의 시간 프레임에 대한 우선도 정보의 사전 판독이 수행되고, 이후 MDCT 계수의 출력 목적지가 연속하는 3개의 시간 프레임의 우선도 정보로부터 선택된다. 이로 인해, 도 18의 상측에 나타낸 예에서는 페이드-아웃 처리가 시간 프레임(n) 및 시간 프레임(n+1)에서 수행되고, 도 18의 하측에 나타낸 예에서는 페이드-인 처리가 시간 프레임(n+1) 및 시간 프레임(n+2)에서 수행된다.
그러나 2개의 시간 프레임에 대한 우선도 정보의 사전 판독이 수행될 수 있는 경우, 도 18의 상측에 나타낸 예에서는 페이드-아웃 처리가 시간 프레임(n+1) 및 시간 프레임(n+2)에서 수행되고, 도 18의 하측에 나타낸 예에서는 페이드-인 처리가 시간 프레임(n) 및 시간 프레임(n+1)에서 수행될 수 있다.
<페이드-인 처리 및 페이드-아웃 처리>
이어서, 오디오 신호에 대한 페이드-인 처리와 페이드-아웃 처리에 대해 설명한다. 여기서도 오브젝트의 오디오 신호를 예로서 설명할 것이다. 그러나 각 채널의 오디오 신호의 경우에도 설명은 유사하다. 또한, 페이드-인 처리 및 페이드-아웃 처리는 오브젝트 및 채널마다 수행된다.
본 기술에서, 예를 들어 도 18에 도시된 예와 같이, 페이드-인 처리 또는 페이드-아웃 처리는 IMDCT에 의해 획득된 IMDCT 신호 및 제로 데이터인 IMDCT 신호가 중첩 가산되는 시간 프레임과, 상술한 시간 프레임 전 또는 후의 시간 프레임에서 수행된다.
페이드-인 처리에서, 오디오 신호에 대한 이득 조정은 그 시간 프레임의 오디오 신호의 진폭(크기)이 시간에 따라 커지도록 수행된다. 반대로 페이드-아웃 처리에서, 오디오 신호에 대한 이득 조정은 그 시간 프레임의 오디오 신호의 진폭이 시간에 따라 작아지도록 수행된다.
이와 같이, IMDCT에 의해 획득된 IMDCT 신호와 제로 데이터인 IMDCT 신호의 접속 부분이 불연속이 되는 경우에도 청취 시의 음질의 열화를 억제할 수 있다. 이하에서는, 이러한 이득 조정 시에 오디오 신호가 승산되는 이득 값을 특히, 페이딩 신호 이득이라고 지칭한다.
또한, 본 기술에서는, IMDCT에 의해 획득된 IMDCT 신호와 제로 데이터인 IMDCT 신호의 접속 부분에 대한 SBR에서도, 페이드-인 처리 또는 페이드-아웃 처리가 수행된다.
즉, SBR에서는 시간 슬롯마다 각각의 고 주파수 부대역의 파워 값이 사용된다. 그러나 본 기술에서는, 각각의 고 주파수 부대역의 파워 값이 페이드-인 처리 또는 페이드-아웃 처리를 위해 시간 슬롯마다 결정된 이득 값으로 승산되고, 이후 SBR이 수행된다. 즉, 고 주파수 파워 값의 이득 조정이 수행된다.
이하에서는, 각각의 고 주파수 부대역의 파워 값이 승산되고 시간 슬롯마다 결정되는 이득 값을, 특히 페이딩 SBR 이득이라고 지칭한다.
구체적으로, 페이드-인 처리를 위한 페이딩 SBR 이득의 이득 값은 시간에 따라 커지도록, 즉 다음 시간 슬롯의 페이딩 SBR 이득의 이득 값만큼 크게 커지도록 결정된다. 반대로, 페이드-아웃 처리를 위한 페이딩 SBR 이득의 이득 값은 다음 시간 슬롯의 페이딩 SBR 이득의 이득 값만큼 작게 커지도록 결정된다.
이와 같이, SBR 시에도 페이드-인 처리 또는 페이드-아웃 처리를 수행함으로써, 고 주파수가 불연속이 될 때조차 청취 시의 음질의 열화를 억제할 수 있다.
구체적으로, 예를 들어 도 19 및 도 20에 예시된 처리 작업은 오디오 신호 및 고 주파수 파워 값에 대한 페이드-인 처리 또는 페이드-아웃 처리와 같은 이득 조정으로서 수행된다. 또한, 도 19 및 도 20에서, 도 18의 경우에 대응하는 부분에는 동일한 문자 또는 부호를 기재하고, 그 설명은 반복되지 않을 것이다.
도 19의 예는 도 18에서 상측에 나타낸 경우의 예이다. 이 예에서, 시간 프레임(n) 및 시간 프레임(n+1)의 오디오 신호에는 꺾은선 GN11로 나타낸 페이딩 신호 이득이 승산된다.
꺾은선 GN11로 나타낸 페이딩 신호 이득의 값은 시간 프레임(n)의 부분에서 시간에 따라 "1"에서 "0"으로 선형으로 변화하고, 시간 프레임(n+1)의 부분에서는 계속 "0"이 된다. 따라서, 오디오 신호가 페이딩 신호 이득을 사용하여 오디오 신호의 이득을 조정함으로써 제로 데이터로 점진적으로 변화하기 때문에, 청취 시의 음질의 열화를 억제할 수 있다.
또한, 본 예에서, 시간 프레임(n)의 각 시간 슬롯의 고 주파수 파워 값에는 화살표 GN12로 나타낸 페이딩 SBR 이득이 승산된다.
화살표 GN12로 나타낸 페이딩 SBR 이득의 값은 다음 시간 슬롯에서의 값만큼 작아지게 감소하도록, 시간에 따라 "1"에서 "0"으로 변화한다. 따라서, 오디오 신호의 고 주파수 성분이 페이딩 SBR 이득을 사용하여 고 주파수 이득을 조정함으로써 점진적으로 제로 데이터로 변화하기 때문에, 청취 시의 음질의 열화를 억제할 수 있다.
한편, 도 20에 나타낸 예는 도 18에서 하측에 나타낸 경우의 예이다. 본 예에서, 시간 프레임(n+1) 및 시간 프레임(n+2)의 오디오 신호에는 꺾은선 GN21로 나타낸 페이딩 신호 이득이 승산된다.
꺾은선 GN21로 나타낸 페이딩 신호 이득의 값은 시간 프레임(n+1)의 부분에서 계속 "0"이 되고, 시간 프레임(n+2)의 부분에서는 시간에 따라 "0"에서 "1"로 선형으로 변화한다. 따라서, 오디오 신호가 페이딩 신호 이득을 사용하여 오디오 신호의 이득을 조정함으로써 점진적으로 제로 데이터로부터 원래 신호로 변화하기 때문에, 청취 시의 음질의 열화를 억제할 수 있다.
또한, 본 예에서, 시간 프레임(n+2)의 각 시간 슬롯의 고 주파수 파워 값에는 화살표 GN22로 나타낸 페이딩SBR 이득이 승산된다.
화살표 GN22로 나타낸 페이딩 SBR 이득의 값은 다음 시간 슬롯의 값만큼 커지게 증가하도록 "0"에서 "1"로 변화한다. 따라서, 오디오 신호의 고 주파수 성분이 페이딩 SBR 신호 이득을 사용하여 고 주파수 이득을 조정함으로써 점진적으로 제로 데이터에서 원래 신호로 변화하기 때문에, 청취 시의 음질의 열화를 억제할 수 있다.
<언패킹/디코딩 유닛의 구성예>
MDCT 계수의 출력 목적지의 선택, 및 페이드-인 처리 또는 페이드-아웃 처리와 같은 이득 조정이 전술한 바와 같이 수행되는 경우, 언패킹/디코딩 유닛(161)은 도 21에 도시된 바와 같이 구성된다. 도 21에서, 도 10의 경우에 대응하는 부분에는 동일한 부호가 기재되고, 그 설명은 반복되지 않을 것이다.
도 21의 언패킹/디코딩 유닛(161)은 우선도 정보 취득 유닛(191), 채널 오디오 신호 취득 유닛(192), 채널 오디오 신호 디코딩 유닛(193), 출력 선택 유닛(194), 제로 값 출력 유닛(195), IMDCT 유닛(196), 중첩 가산 유닛(271), 이득 조정 유닛(272), SBR 처리 유닛(273), 오브젝트 오디오 신호 취득 유닛(197), 오브젝트 오디오 신호 디코딩 유닛(198), 출력 선택 유닛(199), 제로 값 출력 유닛(200), IMDCT 유닛(201), 중첩 가산 유닛(274), 이득 조정 유닛(275) 및 SBR 처리 유닛(276)을 포함한다.
도 21에 도시된 언패킹/디코딩 유닛(161)의 구성은 중첩 가산 유닛(271) 내지 SBR 처리 유닛(276)의 컴포넌트들이 도 10에 예시된 언패킹/디코딩 유닛(161)의 구성에 추가로 제공된 구성이다.
중첩 가산 유닛(271)은 제로 값 출력 유닛(195) 또는 IMDCT 유닛(196)으로부터 공급된 IMDCT 신호(오디오 신호)를 중첩 가산하여, 각 시간 프레임의 오디오 신호를 생성하고, 이후 그 오디오 신호를 이득 조정 유닛(272)에 공급한다.
이득 조정 유닛(272)은 우선도 정보 취득 유닛(191)으로부터 공급된 우선도 정보에 기초하여 중첩 가산 유닛(271)으로부터 공급된 오디오 신호의 이득을 조정하고, 그 결과를 SBR 처리 유닛(273)에 공급한다.
SBR 처리 유닛(273)은 우선도 정보 취득 유닛(191)으로부터 시간 슬롯마다의 각각의 고 주파수 부대역의 파워 값을 취득하고, 우선도 정보 취득 유닛(191)으로부터 공급된 우선도 정보에 기초하여 고 주파수 파워 값의 이득을 조정한다. 또한, SBR 처리 유닛(273)은 이득이 조정된 고 주파수 파워 값을 사용하여 이득 조정 유닛(272)으로부터 공급된 오디오 신호에 대해 SBR을 수행하고, 이후 SBR의 결과로서 획득된 오디오 신호를 믹싱 유닛(163)에 공급한다.
중첩 가산 유닛(274)은 제로 값 출력 유닛(200) 또는 IMDCT 유닛(201)으로부터 공급된 IMDCT 신호(오디오 신호)를 중첩 가산하여, 각 시간 프레임의 오디오 신호를 생성하고, 그 오디오 신호를 이득 조정 유닛(275)에 공급한다.
이득 조정 유닛(275)은 우선도 정보 취득 유닛(191)으로부터 공급된 우선도 정보에 기초하여 중첩 가산 유닛(274)으로부터 공급된 오디오 신호의 이득을 조정하고, 그 오디오 신호를 SBR 처리 유닛(276)에 공급한다.
SBR 처리 유닛(276)은 우선도 정보 취득 유닛(191)으로부터 시간 슬롯마다 각각의 고 주파수 부대역의 파워 값을 취득하고, 우선도 정보 취득 유닛(191)으로부터 공급된 우선도 정보에 기초하여 고 주파수 파워 값의 이득을 조정한다. 또한, SBR 처리 유닛(276)은 이득이 조정된 고 주파수 파워 값을 사용하여 이득 조정 유닛(275)으로부터 공급된 오디오 신호에 대해 SBR을 수행하고, 이후 SBR의 결과로서 획득된 오디오 신호를 렌더링 유닛(162)에 공급한다.
<선택적 디코딩 처리의 설명>
계속해서, 언패킹/디코딩 유닛(161)이 도 21에 예시된 구성을 갖는 경우의 디코딩 장치(151)의 동작이 설명될 것이다. 이 경우, 디코딩 장치(151)는 도 11을 참고하여 설명한 디코딩 처리를 수행한다. 그러나 도 22에 예시된 처리는 단계 S52의 선택적 디코딩 처리로서, 수행된다.
이하에서는, 도 22의 흐름도를 참고하여, 도 11의 단계 S52의 처리에 대응하는 선택적 디코딩 처리가 설명될 것이다.
단계 S181에서, 우선도 정보 취득 유닛(191)은 공급된 비트 스트림으로부터 각 채널의 오디오 신호의 고 주파수 파워 값을 취득해서, 그 고 주파수 파워 값을 SBR 처리 유닛(273)에 공급하고, 공급된 비트 스트림으로부터 각 오브젝트의 오디오 신호의 고 주파수 파워 값을 취득해서, 그 고 주파수 파워 값을 SBR 처리 유닛(276)에 공급한다.
고 주파수의 파워 값이 취득된 후, 단계 S182 내지 단계 S187의 처리 작업이 수행되고, 처리될 대상 채널의 오디오 신호(IMDCT 신호)가 생성된다. 그러나 이들 처리 작업은 도 12의 단계 S81 내지 단계 S86의 처리와 유사하고, 그 설명은 반복되지 않을 것이다.
그러나 단계 S186에서는, 상술한 수학식 1과 유사한 조건이 만족될 경우, 즉 적어도 하나 이상의 우선도 정보 아이템이 처리될 대상 채널의 현 시간 프레임의 우선도 정보 및 처리될 대상 채널의 현 시간 프레임의 직전 및 직후의 각 시간 프레임의 우선도 정보 아이템들 중에서 임계치 P 이상인 경우, 우선도 정보가 임계치 P 이상이라고 결정된다. 또한, 제로 값 출력 유닛(195) 또는 IMDCT 유닛(196)에 생성된 IMDCT 신호는 중첩 가산 유닛(271)에 출력된다.
단계 S186에서 우선도 정보가 임계치 P 이상이라고 결정되지 않거나 또는 단계 S187에서 IMDCT 신호가 생성되는 경우, 단계 S188의 처리가 수행된다.
단계 S188에서, 중첩 가산 유닛(271)은 제로 값 출력 유닛(195) 또는 IMDCT 유닛(196)으로부터 공급된 IMDCT 신호의 중첩 가산을 수행하고, 중첩 가산의 결과로서 획득된 현 시간 프레임의 오디오 신호를 이득 조정 유닛(272)에 공급한다.
구체적으로는, 예를 들어 도 18을 참고하여 설명한 바와 같이, 현 시간 프레임의 IMDCT 신호의 전반 절반과, 현 시간 프레임 직전의 IMDCT 신호의 후반 절반이 합산되어, 현 시간 프레임의 오디오 신호가 된다.
단계 S189에서, 이득 조정 유닛(272)은 우선도 정보 취득 유닛(191)으로부터 공급된 처리될 대상 채널의 우선도 정보에 기초하여 중첩 가산 유닛(271)으로부터 공급된 오디오 신호의 이득을 조정하고, 이득 조정의 결과를 SBR 처리 유닛(273)에 공급한다.
구체적으로, 현 시간 프레임 직전의 시간 프레임의 우선도 정보가 임계치 P 이상이고, 현 시간 프레임의 우선도 정보 및 현 시간 프레임 직후의 시간 프레임의 우선도 정보가 임계치 P 미만인 경우, 이득 조정 유닛(272)은 도 19의 꺾은선 GN11로 나타낸 페이딩 신호 이득에서 오디오 신호의 이득을 조정한다. 이 경우, 도 19의 시간 프레임(n)은 현 시간 프레임에 대응하고, 현 시간 프레임 직후의 시간 프레임에서는, 꺾은선 GN11에 나타낸 바와 같이, 0의 페이딩 신호 이득에서 이득 조정이 수행된다.
또한, 현 시간 프레임의 우선도 정보가 임계치 P 이상이며, 현 시간 프레임 직전의 2개의 시간 프레임의 우선도 정보가 임계치 P 미만인 경우, 이득 조정 유닛(272)은 도 20의 꺾은선 GN21에 나타낸 페이딩 신호 이득에서 오디오 신호의 이득을 조정한다. 이 경우, 도 20의 시간 프레임(n+2)은 현 시간 프레임에 대응하고, 현 시간 프레임 직전의 시간 프레임에서는, 꺾은선 GN21에 나타낸 바와 같이, 0의 페이딩 신호 이득에서 이득 조정이 수행된다.
이득 조정 유닛(272)은 전술한 2개의 예의 경우에만 이득 조정을 수행하고, 그 외의 경우에는 이득 조정을 수행하지 않고, 오디오 신호를 그대로 SBR 처리 유닛(273)에 공급한다.
단계 S190에서, SBR 처리 유닛(273)은 우선도 정보 취득 유닛(191)으로부터 공급된, 처리될 대상 채널의 고 주파수 파워 값 및 우선도 정보에 기초하여, 이득 조정 유닛(272)으로부터 공급된 오디오 신호에 대해 SBR을 수행한다.
구체적으로는, 현 시간 프레임 직전의 시간 프레임의 우선도 정보가 임계치 P 이상이고, 현 시간 프레임의 우선도 정보 및 현 시간 프레임 직후의 시간 프레임의 우선도 정보가 임계치 P 미만인 경우, SBR 처리 유닛(273)은 도 19의 화살표 GN12로 나타낸 페이딩 SBR 이득에서 고 주파수의 파워 값의 이득을 조정한다. 즉, 고 주파수의 파워 값에는 페이딩 SBR 이득이 승산된다.
그 후, SBR 처리 유닛(273)은 어느 SBR의 고 주파수의 파워 값을 사용해서 SBR을 수행하고, 이득 조정의 결과로서 획득된 오디오 신호를 믹싱 유닛(163)에 공급한다. 이 경우, 도 19의 시간 프레임(n)은 현 시간 프레임에 대응한다.
또한, 현 시간 프레임의 우선도 정보가 임계치 P 이상이고, 현 시간 프레임 직전의 2개의 시간 프레임의 우선도 정보가 임계치 P 미만인 경우, SBR 처리 유닛(273)은 도 20의 화살표 GN22로 나타낸 페이딩 SBR 이득에서 고 주파수의 파워 값의 이득을 조정한다. 그 후, SBR 처리 유닛(273)은 이득이 조정된 고 주파수의 파워 값을 사용해서 SBR을 수행하고, SBR의 결과로서 획득된 오디오 신호를 믹싱 유닛(163)에 공급한다. 이 경우, 도 20의 시간 프레임(n+2)은 현 시간 프레임에 대응한다.
SBR 처리 유닛(273)은 전술한 2개의 예의 경우에만 고 주파수의 파워 값의 이득 조정을 수행하고, 그 외의 경우에는 이득 조정을 수행하지 않고, 취득된 고 주파수의 파워 값을 그대로 사용해서 SBR을 수행하고, SBR의 결과로서 획득된 오디오 신호를 믹싱 유닛(163)에 공급한다.
SBR이 수행되고 현 시간 프레임의 오디오 신호가 획득된 후, 단계 S191 내지 단계 S196의 처리 작업이 수행된다. 그러나 이들 처리 작업은 도 12의 단계 S87 내지 단계 S92의 처리 작업과 유사하고, 그 설명은 반복되지 않을 것이다.
그러나 단계 S195에서는, 상술한 수학식 1의 조건이 만족될 경우, 우선도 정보가 임계치 Q 이상이라고 결정된다. 또한, 제로 값 출력 유닛(200) 또는 IMDCT 유닛(201)에서 생성된 IMDCT 신호(오디오 신호)는 중첩 가산 유닛(274)에 출력된다.
이와 같이, 현 시간 프레임의 IMDCT 신호가 획득될 때, 단계 S197 내지 단계 S199의 처리 작업이 수행되고 현 시간 프레임의 오디오 신호가 생성된다. 그러나 이들 처리 작업은 단계 S188 내지 단계 S190의 처리 작업과 유사하고, 그 설명은 반복되지 않을 것이다.
단계 S200에서, 오브젝트 오디오 신호 취득 유닛(197)이 오브젝트 번호에 1을 더할 때, 처리는 단계 S193에 복귀한다. 그 후, 단계 S193에서 오브젝트 번호가 N 미만이 아니라고 결정될 때, 선택적 디코딩 처리는 종료하고, 그 후, 처리는 도 11의 단계 S53로 진행한다.
전술한 바와 같이, 언패킹/디코딩 유닛(161)은 현 시간 프레임과 현 시간 프레임의 전후의 시간 프레임의 우선도 정보 아이템들에 따라, MDCT 계수의 출력 목적지를 선택한다. 이에 의해, 오디오 신호는, 우선도 정보가 임계치 이상인 시간 프레임과, 우선도 정보가 임계치 미만인 시간 프레임이 스위칭되는 부분에서 완전 재구성되고, 따라서 청취 시의 음질의 열화를 억제할 수 있다.
또한, 언패킹/디코딩 유닛(161)은 연속하는 3개의 시간 프레임의 우선도 정보 아이템들에 기초하여, 중첩 가산된 오디오 신호 또는 고 주파수의 파워 값의 이득을 조정한다. 즉, 페이드-인 처리 또는 페이드-아웃 처리가 적절히 수행된다. 이에 의해, 글리치 노이즈의 발생이 억제되고, 청취 시의 음질의 열화를 억제할 수 있다.
<제5 실시예>
<페이드-인 처리 및 페이드-아웃 처리>
제4 실시예의 설명에서는, 이득 조정이 중첩 가산된 오디오 신호에 대해 수행되고, 또한, 이득 조정이 SBR 시에 고 주파수 파워 값에 대해 수행된다. 이 경우, 최종 오디오 신호의 저 주파수 성분과 고 주파수 성분의 별도의 이득 조정, 즉 페이드-인 처리 및 페이드-아웃 처리가 수행된다.
여기서, 이득 조정은 페이드-인 처리 및 페이드-아웃 처리가 보다 적은 처리로 실현될 수 있도록, 중첩 가산 직후 및 SBR 시에 수행되지 않을 수 있고, SBR에 의해 획득된 오디오 신호에 대해 수행될 수 있다.
그러한 경우, 예를 들어 이득 조정은 도 23 및 도 24에 예시된 바와 같이 수행된다. 도 23 및 도 24에서, 도 19 및 도 20에의 경우에 대응하는 부분에는 동일한 문자 등으로 기재되어, 그 설명은 반복되지 않을 것이다.
도 23에 나타낸 예에서의 우선도 정보의 변화는 도 19에 나타낸 예의 변화와 동일하다. 이 예에서, 임계치 Q가 4이면, 시간 프레임(n-1)의 우선도 정보는 임계치 Q 이상이 되지만, 시간 프레임(n) 내지 시간 프레임(n+2)의 우선도 정보 아이템은 임계치 Q 미만이 된다.
이 경우, 이득 조정은 꺾은선 GN31에 나타낸 페이딩 신호 이득이 승산되는, 시간 프레임(n) 및 시간 프레임(n+1)에서의 SBR에 의해 획득된 오디오 신호에 의해 수행된다.
꺾은선 GN31에 나타낸 페이딩 신호 이득은 도 19의 꺾은선 GN11에 나타낸 페이딩 신호 이득과 동일하다. 그러나 도 23의 예의 경우에는, 이득 조정의 대상이 되는 오디오 신호가 저 주파수 성분 및 고 주파수 성분 양자를 포함하기 때문에, 저 주파수 성분 및 고 주파수 성분의 이득 조정은 하나의 페이딩 신호 이득에 의해 수행될 수 있다.
페이딩 신호 이득을 사용하는 오디오 신호의 이득 조정에 의해, 오디오 신호는 IMDCT에 의해 획득된 IMDCT 신호 및 제로 데이터인 IMDCT 신호가 중첩 가산되는 부분과 그 직전 부분에서, 점진적으로 제로 데이터로 변화한다. 이에 의해, 청취 시의 음질의 열화를 억제할 수 있다.
한편, 도 24에 나타낸 예에서의 우선도 정보의 변화는 도 20에 나타낸 경우의 변화와 동일하다. 이 예에서, 임계치 Q가 4이면, 우선도 정보 아이템은 시간 프레임(n) 및 시간 프레임(n+1)에서 임계치 Q 미만이 되지만, 시간 프레임(n+2)의 우선도 정보는 임계치 Q 이상이 된다.
이러한 경우, 이득은 꺾은선 GN41에 나타낸 페이딩 신호 이득이 승산되는, 시간 프레임(n+1) 및 시간 프레임(n+2)에서의 SBR에 의해 획득된 오디오 신호에 의해 조정된다.
꺾은선 GN41에 나타낸 페이딩 신호 이득은 도 20의 꺾은선 GN21에 나타낸 페이딩 신호 이득과 동일하다. 그러나 도 24의 예의 경우에, 이득 조정의 대상이 되는 오디오 신호가 저 주파수 성분 및 고 주파수 성분 양자를 포함하기 때문에, 저 주파수 성분 및 고 주파수 성분의 이득 조정은 하나의 페이딩 신호 이득에 의해 수행될 수 있다.
페이딩 신호 이득을 사용하는 오디오 신호의 이득 조정에 의해, 오디오 신호들은 IMDCT에 의해 획득된 IMDCT 신호 및 제로 데이터인 IMDCT 신호가 중첩 가산되는 부분과 그 직전 부분에서, 점진적으로 제로 데이터에서 원래 데이터로 변화한다. 이에 의해, 청취 시 음질의 열화를 억제할 수 있다.
<언패킹/디코딩 유닛의 구성예>
이득 조정이 도 23 및 도 24를 참고하여 상술한 페이드-인 처리 및 페이드-아웃 처리에 의해 수행되는 경우, 언패킹/디코딩 유닛(161)은, 예를 들어 도 25에 예시된 바와 같이 구성된다. 도 25에서, 도 21의 경우에 대응하는 부분에는 동일한 부호가 기재되어, 그 설명은 반복되지 않을 것이다.
도 25에 도시된 언패킹/디코딩 유닛(161)은 우선도 정보 취득 유닛(191), 오디오 신호 취득 유닛(192), 채널 오디오 신호 디코딩 유닛(193), 출력 선택 유닛(194), 제로 값 출력 유닛(195), IMDCT 유닛(196), 중첩 가산 유닛(271), SBR 처리 유닛(273), 이득 조정 유닛(272), 오브젝트 오디오 신호 취득 유닛(197), 오브젝트 오디오 신호 디코딩 유닛(198), 출력 선택 유닛(199), 제로 값 출력 유닛(200), IMDCT 유닛(201), 중첩 가산 유닛(274), SBR 처리 유닛(276) 및 이득 조정 유닛(275)을 포함한다.
도 25에 도시된 언패킹/디코딩 유닛(161)의 구성은 이득 조정 유닛(272) 및 이득 조정 유닛(275)이 각각 SBR 처리 유닛(273) 및 SBR 처리 유닛(276)의 후단에 배치되어 있는 점에서, 도 21에 도시된 언패킹/디코딩 유닛(161)의 구성과 상이하다.
도 25에 도시된 언패킹/디코딩 유닛(161)에서, SBR 처리 유닛(273)은 우선도 정보 취득 유닛(191)으로부터 공급된 고 주파수의 파워 값에 기초하여 중첩 가산 유닛(271)으로부터 공급된 오디오 신호에 대해 SBR을 수행하고, 그 결과로부터 획득된 오디오 신호를 이득 조정 유닛(272)에 공급한다. 이 경우, SBR 처리 유닛(273)에서는, 고 주파수 파워 값의 이득 조정이 수행되지 않는다.
이득 조정 유닛(272)은 우선도 정보 취득 유닛(191)으로부터 공급된 우선도 정보에 기초하여 SBR 처리 유닛(273)으로부터 공급된 오디오 신호의 이득을 조정하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다.
SBR 처리 유닛(276)은 우선도 정보 취득 유닛(191)으로부터 공급된 고 주파수 파워 값에 기초하여 중첩 가산 유닛(274)으로부터 공급된 오디오 신호에 대해 SBR을 수행하고, 그 결과로부터 획득된 오디오 신호를 이득 조정 유닛(275)에 공급한다. 이 경우, SBR 처리 유닛(276)에서는, 고 주파수 파워 값의 이득 조정이 수행되지 않는다.
이득 조정 유닛(275)은 우선도 정보 취득 유닛(191)으로부터 공급된 우선도 정보에 기초하여 SBR 처리 유닛(276)으로부터 공급된 오디오 신호의 이득을 조정하고, 그 오디오 신호를 렌더링 유닛(162)에 공급한다.
<선택적 디코딩 처리의 설명>
계속해서, 언패킹/디코딩 유닛(161)이 도 25에 도시된 구성을 갖는 경우에서의 디코딩 장치(151)의 동작이 설명될 것이다. 이 경우, 디코딩 장치(151)는 도 11을 참고하여 설명된 디코딩 처리를 수행한다. 그러나, 도 26에 예시된 처리는 단계 S52에서의 선택적 디코딩 처리로서 수행된다.
이하에서는, 도 11에서의 단계 S52의 처리에 대응하는 선택적 디코딩 처리가 도 26의 흐름도를 참고하여 설명될 것이다. 이하에서, 단계 S231 내지 단계 S238의 처리 작업은 도 22의 단계 S181 내지 단계 S188의 처리 작업과 동일하고, 그 설명은 반복되지 않을 것이다. 그러나 단계 S232에서, 우선도 정보는 SBR 처리 유닛(273) 및 SBR 처리 유닛(276)에 공급되지 않는다.
단계 S239에서, SBR 처리 유닛(273)은 우선도 정보 취득 유닛(191)으로부터 공급된 고 주파수 파워 값에 기초하여 중첩 가산 유닛(271)으로부터 공급된 오디오 신호에 대해 SBR을 수행하고, 그 결과로부터 획득된 오디오 신호를 이득 조정 유닛(272)에 공급한다.
단계 S240에서, 이득 조정 유닛(272)은 우선도 정보 취득 유닛(191)으로부터 공급된 처리될 대상 채널의 우선도 정보에 기초하여 SBR 처리 유닛(273)으로부터 공급된 오디오 신호의 이득을 조정하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다.
구체적으로, 현 시간 프레임 직전의 시간 프레임의 우선도 정보가 임계치 P 이상이고, 현 시간 프레임의 우선도 정보와, 현 시간 프레임 직후의 시간 프레임의 우선도 정보가 임계치 P 미만인 경우, 이득 조정 유닛(272)은 도 23의 꺾은선 GN31에 나타낸 페이딩 신호 이득에서 오디오 신호의 이득을 조정한다. 이 경우, 도 23에서의 시간 프레임(n)은 현 시간 프레임에 대응하고, 현 시간 프레임 직후의 시간 프레임에서는, 꺾은선 GN31에 나타낸 바와 같이, 0의 페이딩 신호 이득에서 이득 조정이 수행된다.
또한, 현 시간 프레임의 우선도 정보가 임계치 P 이상이고, 현 시간 프레임 직전의 2개의 시간 프레임의 우선도 정보 아이템들이 임계치 P 미만인 경우, 이득 조정 유닛(272)은 도 24의 꺾은선 GN41에 나타낸 페이딩 신호 이득에서 오디오 신호의 이득을 조정한다. 이 경우, 도 24에서의 시간 프레임(n+2)은 현 시간 프레임에 대응하고, 현 시간 프레임 직전의 시간 프레임에서는, 꺾은선 GN41에 나타낸 바와 같이, 0의 페이딩 신호 이득에서 이득 조정이 수행된다.
또한, 이득 조정 유닛(272)은 전술한 2개 예의 경우에만 이득 조정을 수행하고, 그 이외의 경우에는 이득 조정을 수행하지 않고, 오디오 신호를 그대로 믹싱 유닛(163)에 공급한다.
오디오 신호의 이득 조정이 수행된 후, 단계 S241 내지 단계 S247의 처리 작업이 수행된다. 그러나 이들 처리 작업은 도 22의 단계 S191 내지 단계 S197의 처리 작업과 유사하고, 그 설명은 반복되지 않을 것이다.
이렇게 하여, 처리될 대상 오브젝트의 현 시간 프레임의 오디오 신호가 획득될 때, 단계 S248 및 단계 S249의 처리 작업이 수행되고, 현 시간 프레임의 최종 오디오 신호가 획득된다. 그러나 이들 처리 작업은 단계 S239 및 단계 S240의 처리 작업과 유사하고, 그 설명은 반복되지 않을 것이다.
단계 S250에서, 오브젝트 오디오 신호 취득 유닛(197)이 오브젝트 번호에 1을 더하면, 처리는 단계 S243로 복귀한다. 그 후, 단계 S243에서 오브젝트 번호가 N 미만이 아니라고 결정될 때, 선택적 디코딩 처리는 종료하고, 그 후, 처리는 도 11의 단계 S53로 진행한다.
전술한 바와 같이, 언패킹/디코딩 유닛(161)은 연속하는 3개의 시간 프레임의 우선도 정보 아이템들에 기초하여 SBR에 의해 획득된 오디오 신호의 이득을 조정한다. 이렇게 하여, 글리치 노이즈의 발생이 더 간단하게 억제되고, 따라서 청취 시 음질의 열화가 억제될 수 있다.
본 실시예에서는, 3개의 시간 프레임의 우선도 정보 아이템을 사용하여 MDCT 계수의 출력 목적지를 선택하고, 페이딩 신호 이득에 의한 이득 조정을 수행하는 예가 설명되었다. 그러나 페이딩 신호 이득에 의한 이득 조정만이 수행될 수 있다.
그러한 경우, 출력 선택 유닛(194) 및 출력 선택 유닛(199)에서는, MDCT 계수의 출력 목적지가 제1 실시예에서의 경우와 유사한 처리에 의해 선택된다. 그 후, 이득 조정 유닛(272) 및 이득 조정 유닛(275)에서는, 현 시간 프레임의 우선도 정보가 임계치 미만일 경우, 페이드-인 처리나 페이드-아웃 처리가 현 시간 프레임의 페이딩 신호 이득을 선형으로 증가 또는 감소시킴으로써 수행된다. 여기서, 페이드-인 처리가 수행될지 또는 페이드-아웃 처리가 수행될지의 결정은 현 시간 프레임의 우선도 정보와, 현 시간 프레임 직전 및 직후의 시간 프레임의 우선도 정보에 의해 정해질 수 있다.
<제6 실시예>
<페이드-인 처리 및 페이드-아웃 처리>
그런데, 렌더링 유닛(162)에서는, 예를 들어 VBAP가 수행되고, 각 오브젝트의 오디오 신호로부터 각 오브젝트의 음성을 재생하기 위한 각 채널의 오디오 신호가 생성된다.
구체적으로, VBAP에서는 채널마다, 즉 음성을 재생하는 스피커마다, 각 오브젝트에 대해, 오디오 신호의 이득 값(이하, VBAP 이득으로 지칭함)이 시간 프레임마다 산출된다. 그 후, 동일 채널(스피커)의 VBAP 이득이 승산된 각 채널의 오디오 신호의 합이 해당 채널의 오디오 신호가 된다. 달리 말하자면, 각 오브젝트에 대해, 채널마다 산출된 VBAP 이득이 각 채널에 할당된다.
따라서, 오브젝트의 오디오 신호에 대해서는, 오브젝트의 오디오 신호 또는 고 주파수 파워 값의 이득을 조정을 하는 것이 아니고, VBAP 이득을 적절히 조정함으로써, 글리치 노이즈의 발생이 억제되고 청취 시의 음질의 열화가 억제될 수 있다.
그러한 경우, 예를 들어 선형 보간 등이 각 시간 프레임의 VBAP 이득에 대해 수행되고, 각 시간 프레임 내의 오디오 신호의 샘플마다 VBAP 이득이 산출되고, 이후 각 채널의 오디오 신호가 획득된 VBAP 이득에 의해 생성된다.
예를 들어, 처리될 대상의 시간 프레임 내의 선두 샘플의 VBAP 이득 값은 처리될 대상의 시간 프레임 직전의 시간 프레임 내의 말미 샘플의 VBAP 이득 값이 된다. 또한, 처리될 대상의 시간 프레임의 말미 샘플의 VBAP 이득 값은 처리될 대상의 시간 프레임에 관한 통상의 VBAP에 의해 산출된 VBAP 이득 값이 된다.
그 후, 처리될 대상의 시간 프레임에서는, VBAP 이득이 선두 샘플에서 말미 샘플까지 선형으로 변화하도록, 선두 샘플과 말미의 샘플 사이의 각 샘플의 VBAP 이득 값이 결정된다.
그러나, 처리될 대상의 시간 프레임의 우선도 정보가 임계치 미만일 경우, VBAP의 계산은 수행되지 않고, 각 샘플의 VBAP 이득 값은 처리될 대상의 시간 프레임의 말미 샘플의 VBAP 이득 값이 0이 되도록 결정된다.
이와 같이, VBAP 이득을 통해 각 오브젝트의 오디오 신호의 이득 조정을 수행함으로써, 저 주파수 성분과 고 주파수 성분의 이득 조정은 한 번에 수행될 수 있고, 이후 글리치 노이즈의 발생은 더 적은 처리량으로 억제되고, 따라서 청취 시의 음질의 열화를 억제할 수 있다.
전술한 바와 같이, VBAP 이득이 샘플마다 결정되는 경우, 각 시간 프레임의 샘플 마다의 VBAP 이득은, 예를 들어 도 27 및 도 28에 예시된다.
도 27 및 도 28에서, 도 19 및 도 20의 경우에 대응하는 부분에는 동일한 문자 등이 기재되고, 그 설명은 반복되지 않을 것이다. 또한, 도 27 및 도 28에서, "VBAP_gain[q][s]"(여기서, q=n-1, n, n+1, n+2)은 미리 결정된 채널에 대응하는 스피커를 특정하는 스피커 인덱스가 s인, 처리될 대상 오브젝트의 시간 프레임(q)의 VBAP 이득을 나타낸다.
도 27에 나타낸 예는 우선도 정보의 변화가 도 19에 나타낸 경우의 변화와 동일한 예이다. 이 예에서, 임계치 Q가 4이면, 시간 프레임(n-1)의 우선도 정보는 임계치 Q 이상이 된다. 그러나 우선도 정보는 시간 프레임(n) 내지 시간 프레임(n+2)에서 임계치 Q 미만이 된다.
이러한 경우, 시간 프레임(n-1) 내지 시간 프레임(n+1)의 VBAP 이득은, 예를 들어 꺾은선 GN51에 나타낸 이득이 된다.
이 예에서는, 시간 프레임(n-1)의 우선도 정보가 임계치 Q 이상이기 때문에, 각 샘플의 VBAP 이득은 통상의 VBAP에 의해 산출된 VBAP 이득에 기초하여 결정된다.
즉, 시간 프레임(n-1)의 선두 샘플의 VBAP 이득의 값은 시간 프레임(n-2)의 말미 샘플의 VBAP 이득의 값과 동일하게 된다. 또한, 처리될 대상의 오브젝트에 대하여, 시간 프레임(n-1)의 말미 샘플의 VBAP 이득 값은 시간 프레임(n-1)에 대한 통상의 VBAP에 의해 산출되는, 스피커 s에 대응하는 채널의 VBAP 이득 값이 된다. 그 후, 시간 프레임(n-1)의 각 샘플의 VBAP 이득 값은 선두 샘플에서 말미 샘플까지 선형으로 변화하도록 결정된다.
또한, 시간 프레임(n)의 우선도 정보가 임계치 Q 미만이기 때문에, 시간 프레임(n)의 말미 샘플의 VBAP 이득 값은 0이 된다.
즉, 시간 프레임(n)의 선두 샘플의 VBAP 이득 값은 시간 프레임(n-1)의 말미 샘플의 VBAP 이득 값과 동일하게 되고, 시간 프레임(n)의 말미 샘플의 VBAP 이득 값은 0이 된다. 그 후, 시간 프레임(n)의 각 샘플의 VBAP 이득 값은 선두 샘플에서 말미 샘플까지 선형으로 변화하도록 결정된다.
또한, 시간 프레임(n+1)의 우선도 정보가 임계치 Q 미만이기 때문에, 시간 프레임(n+1)의 말미 샘플의 VBAP 이득의 값은 0이 되고, 그 결과, 시간 프레임(n+1)의 전 샘플의 VBAP 이득 값은 0이 된다.
이와 같이, 우선도 정보가 임계치 Q 미만인 시간 프레임의 말미 샘플의 VBAP 이득의 값을 0으로 함으로써, 도 23의 예와 등가인 페이드-아웃 처리가 수행될 수 있다.
한편, 도 28에 나타낸 예에서 우선도 정보의 변화는 도 24에 나타낸 예의 변화와 동일하다. 이 예에서, 임계치 Q가 4이면, 시간 프레임(n-1) 내지 시간 프레임(n+1)에서의 우선도 정보 아이템은 임계치 Q 미만이 되지만, 시간 프레임(n+2)의 우선도 정보 아이템은 임계치 Q 이상이 된다.
이러한 경우, 시간 프레임(n-1) 내지 시간 프레임(n+2)의 VBAP 이득은, 예를 들어 꺾은선 GN61에 나타낸 이득이 된다.
이 예에서, 시간 프레임(n)의 우선도 정보 및 시간 프레임(n+1)의 우선도 정보가 임계치 Q 미만이기 때문에, 시간 프레임(n+1)의 전 샘플의 VBAP 이득은 0이 된다.
또한, 시간 프레임(n+2)의 우선도 정보가 임계치 Q 이상이기 때문에, 처리될 대상의 오브젝트에 대하여, 각 샘플의 VBAP 이득 값은 통상의 VBAP에 의해 산출되는, 스피커 s에 대응하는 채널의 VBAP 이득에 기초하여 결정된다.
즉, 시간 프레임(n+2)의 선두 샘플의 VBAP 이득의 값은 시간 프레임(n+1)의 말미 샘플의 VBAP 이득 값인 0이 되고, 시간 프레임(n+2)의 말미 샘플의 VBAP 이득 값은 시간 프레임(n+2)에 대한 통상의 VBAP에 의해 산출된 VBAP 이득 값이 된다. 그 후, 시간 프레임(n+2)의 각 샘플의 VBAP 이득 값은 선두 샘플에서 말미 샘플까지 선형으로 변화하도록 결정된다.
이와 같이, 우선도 정보가 임계치 Q 미만인 시간 프레임의 말미 샘플의 VBAP 이득의 값을 0으로 함으로써, 도 24의 예와 등가인 페이드-인 처리가 수행될 수 있다.
<언패킹/디코딩 유닛의 구성예>
이득 조정이 도 27 및 도 28을 참고하여 전술한 페이드-인 처리 또는 페이드-아웃 처리에 의해 수행되는 경우, 언패킹/디코딩 유닛(161)은, 예를 들어 도 29에 도시된 바와 같이 구성된다. 도 29에서, 도 25의 경우에 대응하는 부분에는 동일한 부호가 기재되고, 그 설명은 반복되지 않을 것이다.
도 29에 도시된 언패킹/디코딩 유닛(161)은 우선도 정보 취득 유닛(191), 채널 오디오 신호 취득 유닛(192), 채널 오디오 신호 디코딩 유닛(193), 출력 선택 유닛(194), 제로 값 출력 유닛(195), IMDCT 유닛(196), 중첩 가산 유닛(271), SBR 처리 유닛(273), 이득 조정 유닛(272), 오브젝트 오디오 신호 취득 유닛(197), 오브젝트 오디오 신호 디코딩 유닛(198), 출력 선택 유닛(199), 제로 값 출력 유닛(200), IMDCT 유닛(201), 중첩 가산 유닛(274) 및 SBR 처리 유닛(276)을 포함한다.
도 29에 도시된 언패킹/디코딩 유닛(161)의 구성은 이득 조정 유닛(275)이 제공되지 않은 점에서, 도 25에 도시된 언패킹/디코딩 유닛(161)의 구성과 상이하고, 다른 점에서는 도 25에 도시된 구성과 동일하다.
도 29에 도시된 언패킹/디코딩 유닛(161)에서, SBR 처리 유닛(276)은 우선도 정보 취득 유닛(191)으로부터 공급된 고 주파수 파워 값에 기초하여 중첩 가산 유닛(274)으로부터 공급된 오디오 신호에 대해 SBR을 수행하고, 그 결과로부터 획득된 오디오 신호를 렌더링 유닛(162)에 공급한다.
또한, 우선도 정보 취득 유닛(191)은 공급된 비트 스트림으로부터 각 오브젝트의 메타데이터와 우선도 정보를 취득하고, 그 메타데이터와 우선도 정보를 렌더링 유닛(162)에 공급한다. 각 오브젝트의 우선도 정보는 출력 선택 유닛(199)에도 공급된다.
<디코딩 처리의 설명>
계속해서, 언패킹/디코딩 유닛(161)이 도 29에 도시된 구성을 갖는 경우에서의 디코딩 장치(151)의 동작이 설명될 것이다.
디코딩 장치(151)는 도 30에 참고하여 설명된 디코딩 처리를 수행한다. 이하에서는, 디코딩 장치(151)에 의해 수행되는 디코딩 처리가 도 30의 흐름도를 참고하여 설명될 것이다. 그러나 단계 S281에서는, 도 11의 단계 S51의 처리와 동일한 처리가 수행되고, 그 설명은 반복되지 않을 것이다.
단계 S282에서, 언패킹/디코딩 유닛(161)은 선택적 디코딩 처리를 수행한다.
여기서는, 도 30의 단계 S282의 처리에 대응하는 선택적 디코딩 처리가 도 31의 흐름도를 참고하여 설명될 것이다.
이하에서, 단계 S311 내지 단계 S328의 처리 작업은 도 26의 단계 S231 내지 단계 S248의 처리 작업과 동일하고, 그 설명은 반복되지 않을 것이다. 그러나 단계 S312에서, 우선도 정보 취득 유닛(191)은 비트 스트림으로부터 취득된 우선도 정보를 렌더링 유닛(162)에도 공급한다.
단계 S329에서, 오브젝트 오디오 신호 취득 유닛(197)이 오브젝트 번호에 1를 더하면, 처리는 단계 S323로 복귀한다. 그 후, 단계 S323에서 오브젝트 번호가 N 미만이 아니라고 결정될 때, 선택적 디코딩 처리는 종료하고, 그 후, 처리는 도 30의 단계 S283로 진행한다.
따라서, 도 31에 예시된 선택적 디코딩 처리에서, 각 채널의 오디오 신호에 대해서는, 페이딩 신호 이득에 의한 이득 조정이 제5 실시예의 경우와 유사하게 수행되고, 각 오브젝트에 대해서는, 이득 조정이 수행되지 않고, SBR에 의해 획득된 오디오 신호가 그대로 렌더링 유닛(162)에 출력된다.
도 30의 디코딩 처리의 설명을 다시 참조하면, 단계 S283에서, 렌더링 유닛(162)은 SBR 처리 유닛(276)으로부터 공급된 각 오브젝트의 오디오 신호, 우선도 정보 취득 유닛(191)으로부터 공급된 각 오브젝트의 메타데이터로서의 위치 정보, 및 각 오브젝트의 현 시간 프레임의 우선도 정보에 기초하여, 각 오브젝트의 오디오 신호의 렌더링을 수행한다.
예를 들어, 도 27 및 도 28을 참고하여 설명한 바와 같이, 각 채널에 대하여, 렌더링 유닛(162)은 채널마다의 현 시간 프레임의 우선도 정보와, 현 시간 프레임 직전의 시간 프레임의 말미 샘플의 VBAP 이득에 기초하여, 현 시간 프레임의 각 샘플의 VBAP 이득을 산출한다. 이때 렌더링 유닛(162)은 위치 정보에 기초하여 VBAP에 의해 VBAP 이득을 적절히 산출한다.
그 후, 렌더링 유닛(162)은 각 오브젝트에 대해 산출된 각 채널의 샘플마다의 VBAP 이득과, 각 오브젝트의 오디오 신호에 기초하여 각 채널의 오디오 신호를 생성하고, 그 오디오 신호를 믹싱 유닛(163)에 공급한다.
상기 설명에서는, 시간 프레임 내의 각 샘플의 VBAP 이득이 선형으로 변화하도록 각 샘플의 VBAP 이득이 산출되었다. 그러나 VBAP 이득은 비선형으로 변화할 수 있다. 또한, 상기 설명에서는 각 채널의 오디오 신호가 VBAP에 의해 생성되었다. 그러나 각 채널의 오디오 신호가 다른 방법에 의해 생성되는 경우에도, VBAP의 경우와 유사한 처리에 의해 각 오브젝트의 오디오 신호의 이득을 조정하는 것이 가능하다.
각 채널의 오디오 신호가 생성된 후, 단계 S284의 처리가 수행되고, 디코딩 처리는 종료한다. 그러나 단계 S284의 처리가 도 11의 단계 S54의 처리와 동일하기 때문에, 그 설명은 반복되지 않을 것이다.
이와 같이, 디코딩 장치(151)는 각 오브젝트에 대한 우선도 정보에 기초하여 샘플마다 VBAP 이득을 산출하고, 각 채널의 오디오 신호의 생성 시에, VBAP 이득에 의해 오브젝트의 오디오 신호의 이득 조정을 수행한다. 이렇게 하여, 글리치 노이즈의 발생이 더 적은 처리량으로 억제되고, 청취 시의 음질의 열화를 억제할 수 있다.
제4 실시예 내지 제6 실시예의 설명에서는, MDCT 계수의 출력 목적지가 현 시간 프레임의 직전 및 직후의 시간 프레임의 우선도 정보를 사용해서 선택되거나, 이득 조정이 페이딩 신호 이득 등에 의해 수행되었다. 그러나 이에 한정되지 않고, 현 시간 프레임의 우선도 정보와, 현 시간 프레임의 미리 결정된 시간 프레임 전의 시간 프레임의 우선도 정보 또는 현 시간 프레임의 미리 결정된 시간 프레임 후의 시간 프레임의 우선도 정보가 사용될 수 있다.
그런데, 상술한 일련의 처리 작업은 하드웨어에 의해 실행할 수도 있거나 소프트웨어에 의해 실행할 수도 있다. 일련의 처리 작업이 소프트웨어에 의해 실행되는 경우, 소프트웨어를 구성하는 프로그램은 컴퓨터에 인스톨된다. 여기서, 컴퓨터는 전용 하드웨어가 내장되어 있는 컴퓨터, 또는 예를 들어, 각종 프로그램을 인스톨함으로써 각종 기능을 실행하는 것이 가능한 범용 컴퓨터를 포함한다.
도 32는 상술한 일련의 처리 작업을 프로그램에 의해 실행하는 컴퓨터의 하드웨어 구성 예를 도시한 블록도이다.
컴퓨터에서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은 버스(504)에 의해 서로 접속된다.
또한, 입출력 인터페이스(505)는 버스(504)에 접속된다. 입출력 인터페이스(505)에는, 입력 유닛(506), 출력 유닛(507), 기록 유닛(508), 통신 유닛(509) 및 드라이브(510)가 접속된다.
입력 유닛(506)은 키보드, 마우스, 마이크로폰, 촬상 소자를 포함한다. 출력 유닛(507)은 디스플레이 및 스피커를 포함한다. 기록 유닛(508)은 하드 디스크 또는 불휘발성 메모리를 포함한다. 통신 유닛(509)은 네트워크 인터페이스 등을 포함한다. 드라이브(510)는 자기 디스크, 광 디스크, 광자기 디스크 또는 반도체 메모리와 같은 이동식 매체(511)를 구동한다.
상술한 바와 같이 구성된 컴퓨터에서, CPU(501)는 기록 유닛(508)에 기록된 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해 RAM(503)에 로딩하여 그 프로그램을 실행하고, 그 후 상술한 일련의 처리 작업이 수행된다.
컴퓨터(CPU(501))에 의해 실행되는 프로그램은 패키지 매체 등으로서 이동식 매체(511)에 기록되어 제공될 수 있다. 또한, 프로그램은 근거리 통신망, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공될 수 있다.
컴퓨터에서, 프로그램은 이동식 매체(511)를 드라이브(510) 상에 장착함으로써 입출력 인터페이스(505)를 통해 기록 유닛(508)에 인스톨될 수 있다. 또한, 프로그램은 유선 또는 무선의 전송 매체를 통해 통신 유닛(509)에 의해 수신될 수 있고, 기록 유닛(508)에 인스톨될 수 있다. 더욱이, 프로그램은 ROM(502) 또는 기록 유닛(508)에 미리 인스톨될 수 있다.
컴퓨터에 의해 실행되는 프로그램은 처리 작업이 본 명세서에 설명된 순서에서 시계열로 수행되는 프로그램일 수 있거나, 또는 처리 작업이 병렬로, 또는 호출이 행해지는 필요한 타이밍에서 수행되는 프로그램일 수 있다.
또한, 본 기술의 실시예는 상술한 실시예에 한정되지 않고, 다양한 변경은 본 기술의 요지를 벗어남이 없이 이루어질 수 있다.
예를 들어, 본 기술은 하나의 기능이 네트워크를 통해 복수의 장치와 공유하고 공동으로 처리되는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명된 각 단계는 하나의 장치에 의해 실행될 수 있거나 또는 복수의 장치에 의해 공유해서 실행될 수 있다.
또한, 복수의 처리 작업이 하나의 단계에 포함되는 경우, 그 하나의 단계에 포함되는 복수의 처리 작업은 하나의 장치에 의해 실행될 수 있거나 또는 복수의 장치에 의해 공유해서 실행될 수 있다.
또한, 본 명세서에 설명된 효과는 예시일뿐이며 이에 한정되는 것이 아니고, 다른 효과가 있을 수 있다.
또한, 본 기술은 이하 설명되는 바와 같은 구성을 가질 수 있다.
(1) 디코딩 장치는
복수의 채널 및/또는 복수의 오브젝트를 포함하는 하나 이상의 인코딩된 오디오 신호, 및 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하고,
우선도 정보에 따라 하나 이상의 인코딩된 오디오 신호를 디코딩하도록
구성되는 적어도 하나의 회로를 포함한다.
(2) 상기 (1)에 따른 디코딩 장치에서, 적어도 하나의 회로는, 우선도 정보가 나타내는 우선도가 소정의 정도 이상인 하나 이상의 인코딩된 오디오 신호 중 적어도 하나를 디코딩하고, 우선도 정보가 나타내는 우선도가 상기 소정의 정도 미만인 하나 이상의 인코딩된 오디오 신호 중 적어도 다른 하나의 디코딩을 억제함에 의해, 우선도 정보에 따라 적어도 부분적으로 디코딩하도록 구성된다.
(3) 상기 (2)에 따른 디코딩 장치에서, 적어도 하나의 회로는 복수의 채널 및/또는 복수의 오브젝트에 대한 우선도 정보에 적어도 부분적으로 기초하여 상기 소정의 정도를 변경하도록 구성된다.
(4) 상기 (1) 내지 (3) 중 어느 하나에 따른 디코딩 장치에서,
적어도 하나의 회로는 하나 이상의 인코딩된 오디오 신호마다 우선도 정보의 복수의 세트를 취득하도록 구성되고,
적어도 하나의 회로는 우선도 정보의 세트들 중 하나를 선택하고 상기 한 세트의 우선도 정보에 적어도 부분적으로 기초하여 디코딩함에 의해 하나 이상의 인코딩된 오디오 신호를 적어도 부분적으로 디코딩하도록 구성된다.
(5) 상기 (4)에 따른 디코딩 장치에서, 적어도 하나의 회로는 디코딩 장치의 계산 능력에 따라 우선도 정보의 세트들 중 하나를 선택하도록 구성된다.
(6) 상기 (1) 내지 (5) 중 어느 하나에 따른 디코딩 장치에서, 적어도 하나의 회로는 인코딩된 오디오 신호에 적어도 부분적으로 기초하여 우선도 정보를 생성하도록 더 구성될 수 있다.
(7) 상기 (6)에 따른 디코딩 장치에서, 적어도 하나의 회로는 하나 이상의 인코딩된 오디오 신호의 오디오의 음압 또는 스펙트럼 형상에 적어도 부분적으로 기초하여 우선도 정보를 생성하도록 구성된다.
(8) 상기 (1) 내지 (7) 중 어느 하나에 따른 디코딩 장치에서,
복수의 채널 및/또는 복수의 오브젝트에 대한 우선도 정보는, 복수의 채널 중 적어도 하나의 제1 채널 및/또는 복수의 오브젝트 중 적어도 하나의 제1 오브젝트마다, 소정 기간 동안 적어도 하나의 제1 채널 및/또는 적어도 하나의 제1 오브젝트의 상이한 우선도들을 나타내는 우선도 정보를 포함하고,
적어도 하나의 회로는, 상기 소정 기간 동안의 제1 시간에서 제1 채널 및/또는 제1 오브젝트마다의 우선도 및 상기 소정 기간 동안의 상기 제1 시간 이전 또는 이후의 다른 시간에서 제1 채널 및/또는 제1 오브젝트마다의 우선도에 적어도 부분적으로 기초하여 상기 제1 시간에서 제1 채널 및/또는 제1 오브젝트를 디코딩할지를, 제1 채널 및/또는 제1 오브젝트마다 상기 소정 기간 동안의 상기 제1 시간에서 결정함에 의해, 우선도 정보에 기초하여 적어도 부분적으로 디코딩하도록 구성된다.
(9) 상기 (1) 내지 (8) 중 어느 하나에 따른 디코딩 장치에서, 적어도 하나의 회로는 또한,
상기 제1 시간에서 채널 또는 오브젝트마다의 출력 오디오 신호 및 상기 제1 시간 이전 또는 이후의 제2 시간에서 채널 또는 오브젝트의 출력 오디오 신호를 가산함으로써 상기 제1 시간 동안 오디오 신호를 적어도 부분적으로 생성하고 - 소정 시간 동안 채널 또는 오브젝트마다의 출력 오디오 신호는 상기 소정 시간 동안 채널 또는 오브젝트의 디코딩이 수행되는 경우 디코딩의 결과로서 적어도 하나의 회로에 의해 획득된 신호이고, 상기 소정 시간 동안 채널 또는 오브젝트의 디코딩이 수행되지 않은 경우 제로(zero) 데이터임 -,
상기 소정 시간에서 채널 또는 오브젝트의 우선도 정보 및 상기 소정 시간 이전 또는 이후의 다른 시간에서 채널 또는 오브젝트의 우선도 정보에 기초하여 상기 소정 시간에서 채널 또는 오브젝트의 출력 오디오 신호의 이득 조정을 수행하도록 구성된다.
(10) 상기 (9)에 따른 디코딩 장치에서, 적어도 하나의 회로는 또한,
상기 제1 시간에서의 채널 또는 오브젝트의 우선도 정보 및 상기 제1 시간 이전 또는 이후의 상기 제2 시간에서의 채널 또는 오브젝트의 우선도 정보에 기초하여 채널 또는 오브젝트에 대한 고 주파수 파워 값의 이득을 조정하고, 이득이 조정되는 고 주파수 파워 값과 상기 소정 시간의 오디오 신호에 기초하여 상기 제1 시간 동안 오디오 신호의 고 주파수 성분을 생성하도록 구성된다.
(11) 상기 (9) 또는 (10)에 따른 디코딩 장치에서, 적어도 하나의 회로는 또한,
각각의 채널 또는 각각의 오브젝트마다, 고 주파수 파워 값과 상기 소정 시간의 오디오 신호에 기초하여, 고 주파수 성분이 포함되는 상기 제1 시간의 오디오 신호를 생성하고,
고 주파수 성분이 포함되는 상기 제1 시간의 오디오 신호의 이득 조정을 수행하도록 구성된다.
(12) 상기 (1) 내지 (11) 중 어느 하나에 따른 디코딩 장치에서, 적어도 하나의 회로는 또한, 우선도 정보에 기초하여 복수의 오브젝트 중 제1 오브젝트의 오디오 신호를 복수의 채널 중 적어도 일부의 각각에 소정 이득 값으로 할당하고, 복수의 채널 각각의 오디오를 생성하도록 구성된다.
(13) 디코딩 방법은
하나 이상의 인코딩된 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하는 단계, 및
우선도 정보에 따라 복수의 채널 및/또는 복수의 오브젝트를 디코딩하는 단계
를 포함한다.
(14) 실행 가능한 명령어들이 인코딩된 적어도 하나의 비일시적 컴퓨터 판독 가능 저장 매체는, 실행 가능한 명령어들이 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금
하나 이상의 인코딩된 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하는 단계, 및
우선도 정보에 따라 복수의 채널 및/또는 복수의 오브젝트를 디코딩하는 단계를 포함하는 방법을 실행하게 한다.
(15) 인코딩 장치는
오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하고,
우선도 정보를 비트 스트림에 저장하도록
구성되는 적어도 하나의 회로를 포함한다.
(16) 상기 (15)에 따른 인코딩 장치에서, 적어도 하나의 회로는 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보의 복수의 세트를 생성함에 의해 우선도 정보를 적어도 부분적으로 생성하도록 구성된다.
(17) 상기 (16)에 따른 인코딩 장치에서, 적어도 하나의 회로는 디코딩 장치들의 복수의 계산 능력 각각에 대한 우선도 정보의 복수의 세트를 생성하도록 구성된다.
(18) 상기 (15) 내지 (17) 중 어느 하나의 인코딩 장치에서, 적어도 하나의 회로는 오디오 신호의 음압 또는 스펙트럼 형상에 적어도 부분적으로 기초하여 우선도 정보를 생성하도록 구성된다.
(19) 상기 (15) 내지 (18) 중 어느 하나의 인코딩 장치에서,
적어도 하나의 회로는 인코딩된 오디오 신호를 형성하기 위해 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 오디오 신호들을 인코딩하도록 더 구성되고, 적어도 하나의 회로는 우선도 정보 및 인코딩된 오디오 신호를 비트 스트림에 저장하도록 더 구성된다.
(20) 인코딩 방법은
오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하는 단계, 및
우선도 정보를 비트 스트림에 저장하는 단계
를 포함한다.
(21) 실행 가능한 명령어들이 인코딩된 적어도 하나의 비일시적 컴퓨터 판독 가능 저장 매체는, 실행 가능한 명령어들이 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금
오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하는 단계, 및
우선도 정보를 비트 스트림에 저장하는 단계
를 포함하는 방법을 실행하게 한다.
통상의 기술자는, 첨부된 청구항들 및 그 등가물들의 범위 내에 들어오는 한, 설계 요건 및 다른 요인들에 따라 각종 변형, 조합, 서브-조합, 및 변경이 발생할 수 있다는 것을 이해할 것이다.
11 인코딩 장치
21 채널 오디오 인코딩 유닛
22 오브젝트 오디오 인코딩 유닛
23 메타데이터 입력 유닛
24 패킹 유닛
51 인코딩 유닛
52 우선도 정보 생성 유닛
61 MDCT 유닛
91 인코딩 유닛
92 우선도 정보 생성 유닛
101 MDCT 유닛
151 디코딩 장치
161 언패킹/디코딩 유닛
162 렌더링 유닛
163 믹싱 유닛
191 우선도 정보 취득 유닛
193 채널 오디오 신호 디코딩 유닛
194 출력 선택 유닛
196 IMDCT 유닛
198 오브젝트 오디오 신호 디코딩 유닛
199 출력 선택 유닛
201 IMDCT 유닛
231 우선도 정보 생성 유닛
232 우선도 정보 생성 유닛
271 중첩 가산 유닛
272 이득 조정 유닛
273 SBR 처리 유닛
274 중첩 처리 유닛
275 이득 조정 유닛
276 SBR 처리 유닛

Claims (21)

  1. 디코딩 장치로서,
    복수의 채널 및/또는 복수의 오브젝트를 포함하는 하나 이상의 인코딩된 오디오 신호, 및 상기 복수의 채널 및/또는 상기 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하고,
    상기 우선도 정보에 따라 상기 하나 이상의 인코딩된 오디오 신호를 디코딩하도록
    구성되는 적어도 하나의 회로를 포함하는 디코딩 장치.
  2. 제1항에 있어서, 상기 적어도 하나의 회로는, 상기 우선도 정보가 나타내는 우선도가 소정의 정도 이상인 상기 하나 이상의 인코딩된 오디오 신호 중 적어도 하나를 디코딩하고, 상기 우선도 정보가 나타내는 우선도가 상기 소정의 정도 미만인 상기 하나 이상의 인코딩된 오디오 신호 중 적어도 다른 하나의 디코딩을 억제함에 의해, 상기 우선도 정보에 따라 적어도 부분적으로 디코딩하도록 구성되는 디코딩 장치.
  3. 제2항에 있어서, 상기 적어도 하나의 회로는 상기 복수의 채널 및/또는 상기 복수의 오브젝트에 대한 상기 우선도 정보에 적어도 부분적으로 기초하여 상기 소정의 정도를 변경하도록 구성되는 디코딩 장치.
  4. 제1항에 있어서,
    상기 적어도 하나의 회로는 상기 하나 이상의 인코딩된 오디오 신호마다 우선도 정보의 복수의 세트를 취득하도록 구성되고,
    상기 적어도 하나의 회로는 우선도 정보의 상기 세트들 중 하나를 선택하고 상기 한 세트의 우선도 정보에 적어도 부분적으로 기초하여 디코딩함에 의해 상기 하나 이상의 인코딩된 오디오 신호를 적어도 부분적으로 디코딩하도록 구성되는 디코딩 장치.
  5. 제4항에 있어서, 상기 적어도 하나의 회로는 상기 디코딩 장치의 계산 능력에 따라 우선도 정보의 상기 세트들 중 하나를 선택하도록 구성되는 디코딩 장치.
  6. 제1항에 있어서, 상기 적어도 하나의 회로는 상기 인코딩된 오디오 신호에 적어도 부분적으로 기초하여 상기 우선도 정보를 생성하도록 더 구성되는 디코딩 장치.
  7. 제6항에 있어서, 상기 적어도 하나의 회로는 상기 하나 이상의 인코딩된 오디오 신호의 오디오의 음압 또는 스펙트럼 형상에 적어도 부분적으로 기초하여 상기 우선도 정보를 생성하도록 구성되는 디코딩 장치.
  8. 제1항에 있어서,
    상기 복수의 채널 및/또는 상기 복수의 오브젝트에 대한 상기 우선도 정보는, 상기 복수의 채널 중 적어도 하나의 제1 채널 및/또는 상기 복수의 오브젝트 중 적어도 하나의 제1 오브젝트마다, 소정 기간 동안 상기 적어도 하나의 제1 채널 및/또는 상기 적어도 하나의 제1 오브젝트의 상이한 우선도들을 나타내는 우선도 정보를 포함하고,
    상기 적어도 하나의 회로는, 상기 소정 기간 동안의 제1 시간에서 상기 제1 채널 및/또는 상기 제1 오브젝트마다의 우선도 및 상기 소정 기간 동안의 상기 제1 시간 이전 또는 이후의 다른 시간에서 상기 제1 채널 및/또는 상기 제1 오브젝트마다의 우선도에 적어도 부분적으로 기초하여 상기 제1 시간에서 상기 제1 채널 및/또는 상기 제1 오브젝트를 디코딩할지를, 상기 제1 채널 및/또는 상기 제1 오브젝트마다 상기 소정 기간 동안의 상기 제1 시간에서 결정함에 의해, 상기 우선도 정보에 기초하여 적어도 부분적으로 디코딩하도록 구성되는 디코딩 장치.
  9. 제1항에 있어서, 상기 적어도 하나의 회로는,
    제1 시간에서 채널 또는 오브젝트마다의 출력 오디오 신호 및 상기 제1 시간 이전 또는 이후의 제2 시간에서 상기 채널 또는 오브젝트의 출력 오디오 신호를 가산함으로써 상기 제1 시간 동안 오디오 신호를 적어도 부분적으로 생성하고 - 소정 시간 동안 상기 채널 또는 오브젝트마다의 상기 출력 오디오 신호는 상기 소정 시간 동안 상기 채널 또는 오브젝트의 디코딩이 수행되는 경우 디코딩의 결과로서 상기 적어도 하나의 회로에 의해 획득된 신호이고, 상기 소정 시간 동안 상기 채널 또는 오브젝트의 디코딩이 수행되지 않은 경우 제로(zero) 데이터임 -,
    상기 소정 시간에서 상기 채널 또는 오브젝트의 상기 우선도 정보 및 상기 소정 시간 이전 또는 이후의 다른 시간에서 상기 채널 또는 오브젝트의 상기 우선도 정보에 기초하여 상기 소정 시간에서 상기 채널 또는 오브젝트의 상기 출력 오디오 신호의 이득 조정을 수행하도록 더 구성되는 디코딩 장치.
  10. 제9항에 있어서, 상기 적어도 하나의 회로는,
    상기 제1 시간에서의 상기 채널 또는 오브젝트의 상기 우선도 정보 및 상기 제1 시간 이전 또는 이후의 상기 제2 시간에서의 상기 채널 또는 오브젝트의 상기 우선도 정보에 기초하여 상기 채널 또는 오브젝트에 대한 고 주파수 파워 값(high frequency power value)의 이득을 조정하고,
    상기 이득이 조정되는 상기 고 주파수 파워 값과 상기 소정 시간의 오디오 신호에 기초하여 상기 제1 시간 동안 상기 오디오 신호의 고 주파수 성분을 생성하도록 더 구성되는 디코딩 장치.
  11. 제9항에 있어서, 상기 적어도 하나의 회로는,
    각각의 채널 또는 각각의 오브젝트마다, 고 주파수 파워 값과 상기 소정 시간의 오디오 신호에 기초하여, 고 주파수 성분이 포함되는 상기 제1 시간의 오디오 신호를 생성하고,
    상기 고 주파수 성분이 포함되는 상기 제1 시간의 오디오 신호의 상기 이득 조정을 수행하도록 더 구성되는 디코딩 장치.
  12. 제1항에 있어서, 상기 적어도 하나의 회로는, 상기 우선도 정보에 기초하여 상기 복수의 오브젝트 중 제1 오브젝트의 오디오 신호를 상기 복수의 채널 중 적어도 일부의 각각에 소정 이득 값으로 할당하고, 상기 복수의 채널 각각의 오디오를 생성하도록 더 구성되는 디코딩 장치.
  13. 디코딩 방법으로서,
    하나 이상의 인코딩된 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하는 단계, 및
    상기 우선도 정보에 따라 상기 복수의 채널 및/또는 상기 복수의 오브젝트를 디코딩하는 단계
    를 포함하는 디코딩 방법.
  14. 실행 가능한 명령어들이 인코딩된 적어도 하나의 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 실행 가능한 명령어들이 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서로 하여금
    하나 이상의 인코딩된 오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 취득하는 단계, 및
    상기 우선도 정보에 따라 상기 복수의 채널 및/또는 상기 복수의 오브젝트를 디코딩하는 단계
    를 포함하는 방법을 실행하게 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  15. 인코딩 장치로서,
    오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하고,
    상기 우선도 정보를 비트 스트림에 저장하도록
    구성되는 적어도 하나의 회로를 포함하는 인코딩 장치.
  16. 제15항에 있어서, 상기 적어도 하나의 회로는 상기 복수의 채널 및/또는 상기 복수의 오브젝트의 각각에 대한 우선도 정보의 복수의 세트를 생성함에 의해 상기 우선도 정보를 적어도 부분적으로 생성하도록 구성되는 인코딩 장치.
  17. 제16항에 있어서, 상기 적어도 하나의 회로는 디코딩 장치들의 복수의 계산 능력 각각에 대한 우선도 정보의 상기 복수의 세트를 생성하도록 구성되는 인코딩 장치.
  18. 제15항에 있어서, 상기 적어도 하나의 회로는 상기 오디오 신호의 음압 또는 스펙트럼 형상에 적어도 부분적으로 기초하여 상기 우선도 정보를 생성하도록 구성되는 인코딩 장치.
  19. 제15항에 있어서,
    상기 적어도 하나의 회로는 인코딩된 오디오 신호를 형성하기 위해 상기 오디오 신호의 상기 복수의 채널 및/또는 상기 복수의 오브젝트의 오디오 신호들을 인코딩하도록 더 구성되고,
    상기 적어도 하나의 회로는 상기 우선도 정보 및 상기 인코딩된 오디오 신호를 상기 비트 스트림에 저장하도록 더 구성되는 인코딩 장치.
  20. 인코딩 방법으로서,
    오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하는 단계, 및
    상기 우선도 정보를 비트 스트림에 저장하는 단계
    를 포함하는 인코딩 방법.
  21. 실행 가능한 명령어들이 인코딩된 적어도 하나의 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 실행 가능한 명령어들이 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서로 하여금
    오디오 신호의 복수의 채널 및/또는 복수의 오브젝트의 각각에 대한 우선도 정보를 생성하는 단계, 및
    상기 우선도 정보를 비트 스트림에 저장하는 단계
    를 포함하는 방법을 실행하게 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020167021269A 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램 KR102300062B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217028231A KR20210111897A (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2014060486 2014-03-24
JPJP-P-2014-060486 2014-03-24
JPJP-P-2014-136633 2014-07-02
JP2014136633A JP6439296B2 (ja) 2014-03-24 2014-07-02 復号装置および方法、並びにプログラム
PCT/JP2015/001432 WO2015146057A1 (en) 2014-03-24 2015-03-16 Encoding device and encoding method, decoding device and decoding method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217028231A Division KR20210111897A (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램

Publications (2)

Publication Number Publication Date
KR20160136278A true KR20160136278A (ko) 2016-11-29
KR102300062B1 KR102300062B1 (ko) 2021-09-09

Family

ID=53039543

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020217028231A KR20210111897A (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램
KR1020237005472A KR20230027329A (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램
KR1020167021269A KR102300062B1 (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020217028231A KR20210111897A (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램
KR1020237005472A KR20230027329A (ko) 2014-03-24 2015-03-16 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램

Country Status (8)

Country Link
US (4) US20180033440A1 (ko)
EP (3) EP4243016A3 (ko)
JP (1) JP6439296B2 (ko)
KR (3) KR20210111897A (ko)
CN (2) CN111489758B (ko)
BR (1) BR112016021407B1 (ko)
RU (2) RU2689438C2 (ko)
WO (1) WO2015146057A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3059732B1 (en) * 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
JP6777071B2 (ja) * 2015-04-08 2020-10-28 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP6904250B2 (ja) * 2015-04-08 2021-07-14 ソニーグループ株式会社 送信装置、送信方法、受信装置および受信方法
US10424307B2 (en) * 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
US11574644B2 (en) * 2017-04-26 2023-02-07 Sony Corporation Signal processing device and method, and program
US10885921B2 (en) * 2017-07-07 2021-01-05 Qualcomm Incorporated Multi-stream audio coding
US11270711B2 (en) 2017-12-21 2022-03-08 Qualcomm Incorproated Higher order ambisonic audio data
US10657974B2 (en) 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
GB2578715A (en) * 2018-07-20 2020-05-27 Nokia Technologies Oy Controlling audio focus for spatial audio processing
WO2020080099A1 (ja) * 2018-10-16 2020-04-23 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN111081226B (zh) * 2018-10-18 2024-02-13 北京搜狗科技发展有限公司 语音识别解码优化方法及装置
JPWO2021200260A1 (ko) * 2020-04-01 2021-10-07
US20230300557A1 (en) * 2020-09-03 2023-09-21 Sony Group Corporation Signal processing device and method, learning device and method, and program
CN116324980A (zh) * 2020-09-25 2023-06-23 苹果公司 声道、对象和hoa音频内容的无缝可扩展解码
CN112634914B (zh) * 2020-12-15 2024-03-29 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN114974273B (zh) * 2021-08-10 2023-08-15 中移互联网有限公司 一种会议音频混音方法和装置
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011020065A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. Object-oriented audio streaming system
KR20120084314A (ko) * 2009-11-20 2012-07-27 돌비 인터네셔널 에이비 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
EP3059732A1 (en) * 2013-10-17 2016-08-24 Socionext Inc. Audio encoding device and audio decoding device

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330644B1 (en) * 1994-10-27 2001-12-11 Canon Kabushiki Kaisha Signal processor with a plurality of kinds of processors and a shared memory accessed through a versatile control means
JP3519722B2 (ja) * 1997-03-17 2004-04-19 松下電器産業株式会社 データ処理方法及びデータ処理装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6230130B1 (en) * 1998-05-18 2001-05-08 U.S. Philips Corporation Scalable mixing for speech streaming
JP2005292702A (ja) * 2004-04-05 2005-10-20 Kddi Corp オーディオフレームに対するフェードイン/フェードアウト処理装置及びプログラム
US8724830B1 (en) * 2005-01-28 2014-05-13 Texas Instruments Incorporated Multi-stream audio level controller
RU2383941C2 (ru) * 2005-06-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования аудиосигналов
US7974422B1 (en) * 2005-08-25 2011-07-05 Tp Lab, Inc. System and method of adjusting the sound of multiple audio objects directed toward an audio output device
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
US8085786B2 (en) * 2007-03-16 2011-12-27 Qualcomm Incorporated H-ARQ throughput optimization by prioritized decoding
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US9531761B2 (en) * 2010-07-01 2016-12-27 Broadcom Corporation Method and system for prioritizing and scheduling services in an IP multimedia network
JP2012108451A (ja) * 2010-10-18 2012-06-07 Sony Corp 音声処理装置および方法、並びにプログラム
WO2013181272A2 (en) * 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning
US9025458B2 (en) * 2012-10-23 2015-05-05 Verizon Patent And Licensing Inc. Reducing congestion of media delivery over a content delivery network
EP2936485B1 (en) * 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
TR201808415T4 (tr) * 2013-01-15 2018-07-23 Koninklijke Philips Nv Binoral ses işleme.
KR102160254B1 (ko) * 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011020065A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. Object-oriented audio streaming system
KR20120084314A (ko) * 2009-11-20 2012-07-27 돌비 인터네셔널 에이비 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
EP3059732A1 (en) * 2013-10-17 2016-08-24 Socionext Inc. Audio encoding device and audio decoding device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISO/IEC CD 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.04.04. *
ISO/IEC DIS 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.07.25. *
ISO/IEC WD1 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.01.24. (107 meeting w14263) *

Also Published As

Publication number Publication date
EP4243016A3 (en) 2023-11-08
CN106133828A (zh) 2016-11-16
US20200135216A1 (en) 2020-04-30
CN111489758B (zh) 2023-12-01
CN111489758A (zh) 2020-08-04
BR112016021407B1 (pt) 2022-09-27
EP4243016A2 (en) 2023-09-13
EP3123470A1 (en) 2017-02-01
JP6439296B2 (ja) 2018-12-19
CN106133828B (zh) 2020-04-10
JP2015194666A (ja) 2015-11-05
KR20230027329A (ko) 2023-02-27
US20240055007A1 (en) 2024-02-15
WO2015146057A1 (en) 2015-10-01
KR20210111897A (ko) 2021-09-13
RU2016137197A (ru) 2018-03-21
EP3123470B1 (en) 2020-08-12
RU2689438C2 (ru) 2019-05-28
EP3745397A1 (en) 2020-12-02
RU2016137197A3 (ko) 2018-10-22
RU2019112504A (ru) 2019-05-06
US20210398546A1 (en) 2021-12-23
KR102300062B1 (ko) 2021-09-09
BR112016021407A2 (pt) 2022-07-19
US20180033440A1 (en) 2018-02-01
EP3745397B1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
US20240055007A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
KR101921403B1 (ko) 고차 앰비소닉 신호 압축
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
US9830918B2 (en) Enhanced soundfield coding using parametric component generation
RU2555221C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
US9058803B2 (en) Multichannel audio stream compression
TW201729180A (zh) 使用一寬帶對準參數與複數窄帶對準參數編碼或解碼多通道信號之裝置及方法
KR101761569B1 (ko) 오디오 현장의 코딩
US20150371643A1 (en) Stereo audio signal encoder
US11361778B2 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder-decoder spatial analysis
TW201606751A (zh) 將高階保真立體音響信號表示之次頻帶內主導方向信號之方向編碼/解碼之方法及裝置
JP2023072027A (ja) 復号装置および方法、並びにプログラム
EP3987516B1 (en) Coding scaled spatial components
EP3987515B1 (en) Performing psychoacoustic audio coding based on operating conditions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right