KR20150032650A - 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램 - Google Patents

복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램 Download PDF

Info

Publication number
KR20150032650A
KR20150032650A KR1020147004085A KR20147004085A KR20150032650A KR 20150032650 A KR20150032650 A KR 20150032650A KR 1020147004085 A KR1020147004085 A KR 1020147004085A KR 20147004085 A KR20147004085 A KR 20147004085A KR 20150032650 A KR20150032650 A KR 20150032650A
Authority
KR
South Korea
Prior art keywords
information
audio data
unit
downmix
extension
Prior art date
Application number
KR1020147004085A
Other languages
English (en)
Inventor
미츠유키 하타나카
도루 치넨
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20150032650A publication Critical patent/KR20150032650A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 기술은, 보다 현장감이 있는 고품질의 음성을 얻을 수 있도록 하는 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램에 관한 것이다. 부호화 장치는, 비트 스트림에 확장 정보의 유무를 나타내는 정보를 저장한다. 부호화 비트 스트림의 복호 시에는, 판독한 확장 정보의 유무를 나타내는 정보에 따라서 확장 정보를 판독하고, 상기 판독한 확장 정보에 기초하여 오디오 데이터에 대한 처리를 실행한다.

Description

복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램{DECODING DEVICE AND METHOD, ENCODING DEVICE AND METHOD, AND PROGRAM}
본 기술은 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램에 관한 것으로, 특히, 보다 현장감이 있는 고품질의 음성을 얻을 수 있도록 한 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램에 관한 것이다.
최근 들어, 세계 각국에서 동화상 배신 서비스나 디지털 텔레비전 방송, 차세대 아카이빙의 도입이 진행되어, 음성 부분에서는 종래의 스테레오 방송 외에, 5.1 채널의 멀티 채널에 대응한 것이 보급되기 시작하고 있다.
한편, 더 이상의 고화질화를 위해, 보다 화소수를 높인 차세대 하이비전의 검토가 진행되고 있으며, 이에 따라 음성 부분도 5.1 멀티 채널을 넘어, 더 이상의 현장감을 실현하기 위해 평면 방향 및 수직 방향에서의 채널 확장이 기대되고 있다.
또한, 오디오 데이터의 부호화에 관한 기술로서, 서로 다른 채널로부터의 복수의 윈도우를 몇 개의 타일로 그룹화함으로써, 부호화 효율을 개선시키는 기술도 제안되어 있다(예를 들어, 특허문헌 1 참조).
일본 특허 공개 제2010-217900호 공보
그러나, 상술한 기술에서는, 현장감이 있는 고품질의 음성을 얻는 것은 곤란하였다.
예를 들어, 국제 표준화 규격인 MPEG(Moving Picture Experts Group)-2AAC(Advanced Audio Coding) 및 MPEG-4AAC 규격의 멀티 채널 부호화에서는, 평면 방향에서의 스피커 배치의 규정 및 5.1 채널에서 스테레오 채널로의 다운믹스 정보만이 규정되어 있을 뿐이다. 그로 인해, 수평면 및 수직 방향에서의 채널 확장에 충분히 대응할 수 없었다.
본 기술은, 이러한 상황을 감안하여 이루어진 것으로, 보다 현장감이 있는 고품질의 음성을 얻을 수 있도록 하는 것이다.
본 기술의 제1 측면의 복호 장치는, 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하는 복호부와, 상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하는 판독부와, 상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는 처리부를 구비한다.
상기 확장 정보를, 다운믹스에 관한 정보로 해서, 상기 처리부에는, 상기 확장 정보에 기초하여, 복호된 복수 채널의 상기 오디오 데이터를 다운믹스시킬 수 있다.
상기 처리부에는, 상기 확장 정보에 기초하여 다운믹스된 상기 오디오 데이터를, 상기 부호화 비트 스트림에 포함되는 상기 확장 정보와는 상이한 정보에 기초하여 다시 다운믹스시킬 수 있다.
상기 확장 정보를, 상기 오디오 데이터의 다운믹스에 사용하는 계수를 얻기 위한 정보로 할 수 있다.
상기 확장 정보를, 다운믹스된 상기 오디오 데이터의 게인 조정에 사용하는 게인값을 얻기 위한 정보로 해서, 상기 처리부에는, 상기 게인값에 기초하여, 다운믹스된 상기 오디오 데이터의 게인 조정을 행하게 할 수 있다.
상기 확장 정보를, 특정 채널의 상기 오디오 데이터를 다운믹스에 사용할 것인지 여부를 나타내는 정보로 할 수 있다.
본 기술의 제1 측면의 복호 방법 또는 프로그램은, 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하고, 상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하고, 상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는 스텝을 포함한다.
본 기술의 제1 측면에서는, 부호화 비트 스트림에 포함되어 있는 오디오 데이터가 복호되고, 상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보가, 상기 부호화 비트 스트림으로부터 판독되는 동시에, 판독된 상기 정보에 따라서 상기 확장 정보가 판독되고, 상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리가 실행된다.
본 기술의 제2 측면의 부호화 장치는, 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하는 부호화부와, 부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는 패킹부를 구비한다.
상기 확장 정보를, 다운믹스에 관한 정보로 하고, 상기 확장 정보에 기초하여, 복호된 복수 채널의 상기 오디오 데이터가 다운믹스되도록 할 수 있다.
상기 확장 정보에 기초하여 다운믹스된 상기 오디오 데이터가, 상기 부호화 비트 스트림에 포함되는 상기 확장 정보와는 상이한 정보에 기초하여 다시 다운믹스되도록 할 수 있다.
상기 확장 정보를, 상기 오디오 데이터의 다운믹스에 사용하는 계수를 얻기 위한 정보로 할 수 있다.
상기 확장 정보를, 다운믹스된 상기 오디오 데이터의 게인 조정에 사용하는 게인값을 얻기 위한 정보로 하고, 상기 게인값에 기초하여, 다운믹스된 상기 오디오 데이터의 게인 조정이 행하여지도록 할 수 있다.
상기 확장 정보를, 특정 채널의 상기 오디오 데이터를 다운믹스에 사용할 것인지 여부를 나타내는 정보로 할 수 있다.
본 기술의 제2 측면의 부호화 방법 또는 프로그램은, 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하고, 부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는 스텝을 포함한다.
본 기술의 제2 측면에서는, 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보가 부호화되고, 부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보가 소정의 영역에 저장되어서 부호화 비트 스트림이 생성된다.
본 기술의 제1 측면 및 제2 측면에 의하면, 보다 현장감이 있는 고품질의 음성을 얻을 수 있다.
도 1은 스피커 배치에 대하여 설명하는 도면이다.
도 2는 스피커 맵핑의 일례를 나타내는 도이다.
도 3은 부호화 비트 스트림에 대하여 설명하는 도면이다.
도 4는 height_extension_element의 구문을 도시하는 도면이다.
도 5는 스피커의 배치 높이에 대하여 설명하는 도면이다.
도 6은 MPEG4 ancillary data의 구문을 도시하는 도면이다.
도 7은 bs_info()의 구문을 도시하는 도면이다.
도 8은 ancillary_data_status()의 구문을 도시하는 도면이다.
도 9는 downmixing_levels_MPEG4()의 구문을 도시하는 도면이다.
도 10은 audio_coding_mode()의 구문을 도시하는 도면이다.
도 11은 MPEG4_ext_ancillary_data()의 구문을 도시하는 도면이다.
도 12는 ext_ancillary_data_status()의 구문을 도시하는 도면이다.
도 13은 ext_downmixing_levels()의 구문을 도시하는 도면이다.
도 14는 각 계수의 적용 대상에 대하여 설명하는 도면이다.
도 15는 ext_downmixing_global_gains()의 구문을 도시하는 도면이다.
도 16은 ext_downmixing_lfe_level()의 구문을 도시하는 도면이다.
도 17은 다운믹스에 대하여 설명하는 도면이다.
도 18은 dmix_lfe_idx에 대하여 정해지는 계수에 대하여 설명하는 도면이다.
도 19는 dmix_a_idx와 dmix_b_idx에 대하여 정해지는 계수에 대해 설명하는 도면이다.
도 20은 drc_presentation_mode의 구문을 도시하는 도면이다.
도 21은 drc_presentation_mode에 대하여 설명하는 도면이다.
도 22는 부호화 장치의 구성예를 도시하는 도면이다.
도 23은 부호화 처리를 설명하는 흐름도이다.
도 24는 복호 장치의 구성예를 도시하는 도면이다.
도 25는 복호 처리를 설명하는 흐름도이다.
도 26은 부호화 장치의 구성예를 도시하는 도면이다.
도 27은 부호화 처리를 설명하는 흐름도이다.
도 28은 복호 장치의 구성예를 도시하는 도면이다.
도 29는 다운믹스 처리부의 구성예를 도시하는 도면이다.
도 30은 다운믹스부의 구성예를 도시하는 도면이다.
도 31은 다운믹스부의 구성예를 도시하는 도면이다.
도 32는 다운믹스부의 구성예를 도시하는 도면이다.
도 33은 다운믹스부의 구성예를 도시하는 도면이다.
도 34는 다운믹스부의 구성예를 도시하는 도면이다.
도 35는 다운믹스부의 구성예를 도시하는 도면이다.
도 36은 복호 처리를 설명하는 흐름도이다.
도 37은 재배열 처리를 설명하는 흐름도이다.
도 38은 재배열 처리를 설명하는 흐름도이다.
도 39는 다운믹스 처리를 설명하는 흐름도이다.
도 40은 컴퓨터의 구성예를 도시하는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
[본 기술의 개요에 대해서]
우선, 본 기술의 개요에 대하여 설명한다.
본 기술은, 오디오 데이터의 부호화, 복호에 관한 것이다. 예를 들어, MPEG-2AAC나 MPEG-4AAC 규격의 멀티 채널 부호화에서는, 수평면 및 수직 방향에서의 채널 확장을 위한 정보를 가질 수 없다.
또한, 이들의 멀티 채널 부호화에서는, 채널 확장한 콘텐츠의 다운믹스 정보도 갖지 않고, 각 채널의 적절한 혼합비를 알 수 없기 때문에, 재생 채널수가 적은 휴대 기기에서의 재생음이 듣기 어려운 것으로 되어버린다.
따라서, 본 기술에서는, 이하의 특징 (1) 내지 (4)에 의해, 보다 현장감이 있는 고품질의 음성을 얻을 수 있도록 한다.
(1) 기존의 AAC 규격으로 규정되어 있는 PCE(Program_config_element) 내의 코멘트 영역에 수직 방향의 스피커 배치 정보를 기록한다.
(2) 특징 (1)의 경우에 있어서, 일반 코멘트와 수직 방향의 스피커 배치 정보를 식별하기 위해서, 부호화 장치측에서 동기 워드와 CRC 체크 코드의 2개의 식별 정보를 부호화하고, 복호 장치에서는, 2개의 식별 정보의 대조를 행하여, 합치했을 경우에 스피커 배치 정보를 취득한다.
(3) 오디오 데이터의 다운믹스 정보를 보조 데이터(ancillary data) 영역(DSE(data_stream_element))에 기록한다.
(4) 6.1 채널 또는 7.1 채널에서 2 채널로의 다운믹스는, 6.1 채널 또는 7.1 채널에서 5.1 채널로의 다운믹스와, 그 후에 행해지는 5.1 채널에서 2 채널로의 다운믹스의 2단계의 처리로 한다.
이렇게 수직 방향의 스피커 배치 정보를 사용함으로써 평면뿐만 아니라, 수직 방향의 음상 재현이 가능하게 되어, 종래의 평면 멀티 채널에서의 재생보다, 보다 현장감이 높은 재생이 가능하게 된다.
또한, 6.1 채널이나 7.1 채널에서, 5.1 채널이나 2 채널로의 다운믹스 정보를 전송함으로써, 하나의 부호화 데이터를 사용해도 각각의 재생 환경에 최적인 채널수로 오디오 재생이 가능하게 된다. 또한, 본 기술에 대응하지 않은 종래의 복호 장치에서는, 수직 방향의 정보는 일반 코멘트로서 무시되어 오디오 데이터의 복호가 행하여지므로, 호환성이 손상되는 일은 없다.
[스피커의 배치에 대해서]
다음으로 오디오 데이터가 재생될 때의 각 스피커의 배치에 대하여 설명한다.
예를 들어, 도 1에 도시한 바와 같이 유저가 텔레비전 수상기 등의 표시 장치의 표시 화면 TVS를 정면에서 관찰하는 것으로 한다. 즉, 표시 화면 TVS의 도면 중, 전방측에 유저가 위치하고 있는 것으로 한다.
그러한 경우, 유저를 둘러싸도록 13개의 스피커 Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs, LFE가 배치되어 있는 것으로 한다.
이하에서는, 이들 스피커 Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs, LFE에서 재생되는 오디오 데이터(음성)의 채널을, 각각 Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs, LFE라고 칭한다.
도 2에 도시한 바와 같이 채널 L은 「Front Left」이며, 채널 R은 「Front Right」이며, 채널 C는 「Front Center」이다.
또한, 채널 Ls는 「Left Surround」이며, 채널 Rs는 「Right Surround」이며, 채널 Lrs는 「Left Rear」이며, 채널 Rrs는 「Right Rear」이며, 채널 Cs는 「Center Back」이다.
또한, 채널 Lvh는 「Left High Front」이며, 채널 Rvh는 「Right High Front」이며, 채널 LFE는 「Low-Frequency-Effect」이다.
도 1의 설명으로 돌아가서, 스피커 Lvh 및 스피커 Rvh는, 각각 유저의 전방 상측의 좌우에 배치되어 있고, 이들 스피커 Rvh, Lvh가 배치되는 레이어가 「Top layer」이다.
또한, 스피커 L, C, R은, 각각 유저의 전방의 좌측, 중앙, 우측에 배치되어 있고, 스피커 Lc, Rc가, 각각 스피커 L과 C의 사이 및 스피커 R과 C의 사이에 배치되어 있다. 또한, 스피커 Ls, Rs는, 각각 유저의 좌우에 배치되어 있고, 스피커 Lrs, Rrs, Cs는, 각각 유저의 후방 좌측, 후방 우측 및 후방에 배치되어 있다.
이들 스피커 Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs는, 대략 유저의 귀의 높이에 위치하는 평면상에서, 유저를 둘러싸도록 배치되어 있고, 이들 스피커가 배치되는 레이어가 「Middle layer」이다.
또한, 스피커 LFE는, 유저의 전방 하측에 배치되어 있고, 스피커 LFE가 배치되는 레이어가 「LFE layer」이다.
[부호화 비트 스트림에 대해서]
이들 각 채널의 오디오 데이터를 부호화하면, 예를 들어 도 3에 도시하는 부호화 비트 스트림이 얻어진다. 즉, 도 3은, AAC 프레임의 부호화 비트 스트림의 구문을 나타내고 있다.
도 3의 부호화 비트 스트림은, 「Header/sideinfo」, 「PCE」, 「SCE」, 「CPE」, 「LFE」, 「DSE」, 「FIL(DRC)」 및 「FIL(END)」로 구성되어 있고, 이 예에서는 부호화 비트 스트림에는, 3개의 「CPE」가 포함되어 있다.
예를 들어, 「PCE」에는 오디오 데이터의 각 채널에 관한 정보가 포함되어 있고, 이 예에서는, 오디오 데이터의 믹스다운에 관한 정보인 「Matrix-mixdown」과, 스피커 배치(높이 정보)에 관한 정보인 「Height Infomation」이 포함되어 있다. 「PCE」에는 자유로운 코멘트를 저장할 수 있는 코멘트 영역(코멘트 필드)인 「comment_field_data」가 포함되어 있고, 「comment_field_data」에는 확장 영역인 「height_extension_element」가 포함되어 있다. 코멘트 영역은, 일반 코멘트 등, 임의의 데이터를 저장 가능한 영역이다. 이 「height_extension_element」 내에, 스피커 배치의 높이에 관한 정보인 「Height Infomation」이 포함되어 있다.
「SCE」에는, 싱글 채널의 오디오 데이터가 포함되어 있고, 「CPE」에는 채널 페어, 즉 2개의 채널의 오디오 데이터가 포함되어 있고, 「LFE」에는, LFE 채널의 오디오 데이터가 포함되어 있다. 예를 들어, 「SCE」에는 C나 Cs 등의 채널의 오디오 데이터가 저장되고, 「CPE」에는 L이나 R, Lvh나 Rvh 등의 채널의 오디오 데이터가 저장된다.
또한, 「DSE」는 보조 데이터 영역이며, 「DSE」에는, 자유로운 데이터가 저장된다. 이 예에서는, 「DSE」에는 오디오 데이터의 다운믹스에 관한 정보로서 「Downmix 5.1ch to 2ch」, 「Dynamic Range Control」, 「DRC Presentation Mode」, 「Downmix 6.1ch and 7.1ch to 5.1ch」, 「global gain downmixing」 및 「LFE downmixing」이 포함되어 있다.
또한 「FIL(DRC)」에는 음성의 다이내믹 레인지 제어에 관한 정보가 포함되어 있고, 예를 들어 「FIL(DRC)」에는 「Program Reference Level」 및 「Dynamic Range Control」이 포함되어 있다.
[코멘트 필드에 대해서]
상술한 바와 같이 「PCE」의 「comment_field_data」에는 「height_extension_element」가 포함되어 있고, 이에 의해 수직 방향의 스피커 배치 정보에 의한 멀티 채널 재생이 실현된다. 즉, 「Top layer」나 「Middle layer」 등 각 높이의 레이어에 배치된 스피커에 의해, 보다 현장감이 있는 고품질의 음성 재생을 할 수 있게 된다.
이러한 「height_extension_element」에는, 예를 들어 도 4에 도시한 바와 같이 다른 일반 코멘트와의 식별을 행하기 위한 동기 워드 등이 포함되어 있다. 즉, 도 4는 「height_extension_element」의 구문을 도시하는 도면이다.
도 4에서는, 「PCE_HEIGHT_EXTENSION_SYNC」는 동기 워드를 나타내고 있다.
또한, 「front_element_height_info[i]」, 「side_element_height_info[i]」 및 「back_element_height_info[i]」은, 각각 시청자가 보았을 때 전방, 측방 및 후방에 위치하는 각 스피커의 높이, 즉 레이어를 나타내고 있다.
또한 「byte_alignment()」는, 바이트 얼라인먼트를 행하는 것을 나타내고 있고, 「height_info_crc_check」는, 식별 정보로서 사용되는 CRC 체크 코드를 나타내고 있다. 또한, 「PCE_HEIGHT_EXTENSION_SYNC」부터 「byte_alignment()」까지의 사이에 읽혀진 정보, 즉 동기 워드, 각 스피커의 배치 정보(각 채널의 정보), 바이트 얼라인먼트에 기초하여, CRC 체크 코드가 산출된다. 그리고, 산출된 CRC 체크 코드와, 「height_info_crc_check」에 의해 나타나는 CRC 체크 코드가 일치하는지 여부가 판정되고, 그것들이 일치하는 경우, 각 스피커의 배치에 관한 정보가 정확하게 읽혀진 것이 된다. 「crc_cal()!=height_info_crc_check」는, 상술한 CRC 체크 코드의 대조를 행하는 것을 나타내고 있다.
또한, 음원의 위치, 즉 스피커의 배치(높이)에 관한 정보인 「front_element_height_info[i]」, 「side_element_height_info[i]」 및 「back_element_height_info[i]」는, 예를 들어 도 5에 도시하는 바와 같이 정해진다.
즉, 「front_element_height_info[i]」, 「side_element_height_info[i]」 및 「back_element_height_info[i]」의 각 정보가 「0」, 「1」, 「2」이면, 그 스피커의 높이는 「Normal height」, 「Top speaker」, 「Bottom Speaker」가 된다. 즉, 「Middle layer」, 「Top layer」 및 「LFE layer」이다.
[DSE에 대해서]
이어서, 「DSE」, 즉 「data_stream_element()」의 「data_stream_byte []」에 포함되는 보조 데이터 영역인 「MPEG4 ancillary data」에 대하여 설명한다. 이 「MPEG4 ancillary data」에 의해, 오디오 데이터의 6.1 채널 또는 7.1 채널에서, 5.1 채널이나 2 채널로의 다운믹스 DRC 제어가 가능하게 된다.
도 6은, 「MPEG4 ancillary data」의 구문을 도시하는 도면이다. 「MPEG4 ancillary data」에는, 「bs_info()」, 「ancillary_data_status()」, 「downmixing_levels_MPEG4()」, 「audio_coding_mode()」, 「Compression_value」 및 「MPEG4_ext_ancillary_data()」가 포함되어 있다.
여기서, 「Compression_value」는, 도 3의 「Dynamic Range Control」에 대응하고 있다. 또한, 「bs_info()」, 「ancillary_data_status()」, 「downmixing_levels_MPEG4()」, 「audio_coding_mode()」 및 「MPEG4_ext_ancillary_data()」의 구문은, 각각 도 7 내지 도 11에 도시하는 바와 같이 되어 있다.
예를 들어, 「bs_info()」에는 도 7에 도시한 바와 같이, 「mpeg_audio_type」, 「dolby_surround_mode」, 「drc_presentation_mode」 및 「pseudo_surround_enable」이 포함되어 있다.
「drc_presentation_mode」는, 도 3에 도시한 「DRC Presentation Mode」에 대응한다. 또한, 「pseudo_surround_enable」에는, 5.1 채널에서 2 채널로의 다운믹스의 처리 수순을 나타내는 정보, 즉 복수의 다운믹스 처리 방법 중 어느 방법에 의해 다운믹스를 행할지를 나타내는 정보가 포함되어 있다.
또한 예를 들어 도 8에 나타내는 「ancillary_data_status()」에 포함되어 있는 「ancillary_data_extension_status」가 0인지 또는 1인지에 따라, 서로 다른 처리가 행하여진다. 「ancillary_data_extension_status」가 1일 경우에는, 도 6의 「MPEG4 ancillary data」에서의 「MPEG4_ext_ancillary_data()」로의 액세스가 행해져서, 다운믹스 DRC 제어가 행하여진다. 이에 반해, 「ancillary_data_extension_status」가 0인 경우에는, 종래대로의 처리가 행하여진다. 이에 의해, 기존의 규격과의 호환성을 확보할 수 있다.
도 8의 「ancillary_data_status()」에 포함되어 있는 「downmixing_levels_MPEG4_status」는, 5.1 채널에서 2 채널로의 다운믹스에 사용되는 계수(혼합비)를 지정하기 위한 정보이다. 즉, 「downmixing_levels_MPEG4_status」가 1일 경우에는, 도 9에 나타내는 「downmixing_levels_MPEG4()」에 저장되어 있는 정보에 의해 정해지는 계수가 사용되고, 다운믹스가 행하여진다.
도 9의 「downmixing_levels_MPEG4()」에는, 다운믹스의 계수를 특정하기 위한 정보로서, 「center_mix_level_value」와 「surround_mix_level_value」가 포함되어 있다. 이들 「center_mix_level_value」와 「surround_mix_level_value」에 대응하는 계수의 값은, 예를 들어 후술하는 도 19의 테이블에 의해 정해진다.
또한, 도 9의 「downmixing_levels_MPEG4()」는, 도 3의 「Downmix 5.1ch to 2ch」에 대응하고 있다.
또한, 도 11의 「MPEG4_ext_ancillary_data()」에는, 「ext_ancillary_data_status()」, 「ext_downmixing_levels()」, 「ext_downmixing_global_gains()」 및 「ext_downmixing_lfe_level()」이 포함되어 있다.
「MPEG4_ext_ancillary_data()」에는, 지금까지 5.1 채널의 오디오 데이터를 다루고 있었던 것을, 7.1 또는 6.1 채널의 오디오 데이터까지 취급할 수 있게 채널수를 확장하는 경우에 필요한 정보가 저장되어 있다.
구체적으로는, 「ext_ancillary_data_status()」에는, 5.1 채널보다 많은 채널에서 5.1 채널로의 다운믹스를 행할 것인지 여부를 나타내는 정보(플래그), 다운믹스 시에 게인 제어를 행할지를 나타내는 정보, 다운믹스에 LFE 채널을 이용할지를 나타내는 정보가 포함되어 있다.
「ext_downmixing_levels()」에는, 다운믹스를 행하는 경우에 사용되는 계수(혼합비)를 특정하기 위한 정보가 저장되어 있고, 「ext_downmixing_global_gains()」에는, 게인 조정시의 게인에 관한 정보가 포함되어 있다. 또한, 「ext_downmixing_lfe_level()」에는, 다운믹스를 행하는 경우에 사용되는 LEF 채널의 계수(혼합비)를 특정하기 위한 정보가 저장되어 있다.
보다 상세하게는 예를 들어 「ext_ancillary_data_status()」의 구문은, 도 12에 나타내는 바와 같이 되어 있다. 「ext_ancillary_data_status()」에 있어서 「ext_downmixing_levels_status」는, 6.1 채널이나 7.1 채널에서 5.1 채널로 다운믹스할지 여부를 나타내고 있다. 즉, 「ext_downmixing_levels()」이 있는지 여부를 나타내고 있다. 이 「ext_downmixing_levels_status」는, 도 3의 「Downmix 6.1ch and 7.1ch to 5.1ch」에 대응한다.
또한, 「ext_downmixing_global_gains_status」는, 글로벌 게인 제어를 할지 여부를 나타내고 있고, 도 3의 「global gain downmixing」에 대응하고 있다. 즉, 「ext_downmixing_global_gains()」이 있는지 여부를 나타내고 있다. 「ext_downmixing_lfe_level_status」는, 5.1 채널에서 2 채널로 다운믹스할 때에, LFE 채널을 사용할 것인지 여부를 나타내고 있고, 도 3의 「LFE downmixing」에 대응하고 있다.
또한, 도 11의 「MPEG4_ext_ancillary_data()」에서의 「ext_downmixing_levels()」의 구문은 도 13에 나타내는 바와 같이 되어 있고, 도 13에 나타내는 「dmix_a_idx」 및 「dmix_b_idx」는, 다운믹스 시의 혼합비(계수)를 나타내는 정보이다.
또한, 「ext_downmixing_levels()」에서 정해지는 「dmix_a_idx」 및 「dmix_b_idx」와, 7.1 채널의 오디오 데이터를 다운믹스할 때에, 그것들의 「dmix_a_idx」 및 「dmix_b_idx」가 적용되는 성분과의 대응은, 도 14에 도시하는 바와 같이 되어 있다.
도 11의 「MPEG4_ext_ancillary_data()」에서의 「ext_downmixing_global_gains()」 및 「ext_downmixing_lfe_level()」의 구문은 도 15 및 도 16에 나타내는 바와 같이 되어 있다.
예를 들어, 도 15의 「ext_downmixing_global_gains()」에는, 5.1 채널로의 다운믹스를 행할 때의 게인의 부호를 나타내는 「dmx_gain_5_sign」과, 그 게인 「dmx_gain_5_idx」, 2 채널로의 다운믹스를 행할 때의 게인의 부호를 나타내는 「dmx_gain_2_sign」과, 그 게인 「dmx_gain_2_idx」가 포함되어 있다.
또한, 도 16의 「ext_downmixing_lfe_level()」에는, 「dmix_lfe_idx」가 포함되어 있고, 이 「dmix_lfe_idx」는, 다운믹스 시의 LFE 채널의 혼합비(계수)를 나타내는 정보이다.
[다운믹스에 대해서]
또한, 도 7에 나타낸 「bs_info()」의 구문에서의 「pseudo_surround_enable」은, 다운믹스의 처리 수순을 나타내고 있고, 그 처리 수순은 도 17에 나타내는 바와 같다. 여기에서는, 「pseudo_surround_enable」이 0인 경우와 1인 경우의 2가지의 처리 수순을 나타내고 있다.
여기서, 오디오 데이터의 다운믹스 처리에 대하여 설명한다.
우선, 5.1 채널에서 2 채널로의 다운믹스에 대하여 설명한다. 이 경우, 다운믹스 후의 L 채널 및 R 채널을, 각각 L' 채널 및 R' 채널로 하면, 다음 처리가 행하여진다.
즉, 「pseudo_surround_enable」이 0인 경우, 다음 식 (1)의 계산이 행하여져서, L' 채널 및 R' 채널의 오디오 데이터가 구해진다.
L'=L+C×b+Ls×a+LFE×c
R'=R+C×b+Rs×a+LFE×c … (1)
이에 반해, 「pseudo_surround_enable」이 1인 경우, 다음 식 (2)의 계산이 행해져서, L' 채널 및 R' 채널의 오디오 데이터가 구해진다.
L'=L+C×b-a×(Ls+Rs)+LFE×c
R'=R+C×b+a×(Ls+Rs)+LFE×c … (2)
또한, 식 (1) 및 식 (2)에서 L, R, C, Ls, Rs 및 LFE는, 5.1 채널을 구성하는 각 채널이며, 각각 도 1 및 도 2를 참조하여 설명한 L, R, C, Ls, Rs 및 LFE의 각 채널을 나타내고 있다.
또한, 식 (1) 및 식 (2)에서, c는 도 16에서 나타낸 「ext_downmixing_lfe_level()」에 포함되어 있는 「dmix_lfe_idx」의 값에 의해 정해지는 상수이며, 예를 들어 「dmix_lfe_idx」의 각 값에 대한 상수 c의 값은, 도 18에 나타내는 바와 같다. 또한, 보다 상세하게는 도 12의 「ext_ancillary_data_status()」에서의 「ext_downmixing_lfe_level_status」가 0인 경우, LFE 채널은, 식 (1) 및 식 (2)의 계산에는 사용되지 않는다. 한편, 「ext_downmixing_lfe_level_status」가 1인 경우에는, LFE 채널에 승산되는 상수 c의 값이 도 18에 나타내는 테이블에 기초하여 정해진다.
또한, 식 (1) 및 식 (2)에서, a 및 b는, 도 13에서 나타낸 「ext_downmixing_levels()」에 포함되어 있는 「dmix_a_idx」 및 「dmix_b_idx」의 값에 의해 정해지는 상수이다. 또한, 식 (1) 및 식 (2)에서의 a 및 b가, 도 9에 나타낸 「downmixing_levels_MPEG4()」에서의 「center_mix_level_value」 및 「surround_mix_level_value」의 값에 의해 정해지는 상수가 되어도 된다.
예를 들어 「dmix_a_idx」 및 「dmix_b_idx」 또는 「center_mix_level_value」 및 「surround_mix_level_value」의 각 값에 대한 상수 a 및 b의 값은, 도 19에 나타내는 바와 같다. 이 예에서는, 「dmix_a_idx」 및 「dmix_b_idx」와, 「center_mix_level_value」 및 「surround_mix_level_value」에서, 동일한 테이블이 참조되므로, 다운믹스를 위한 상수(계수)인 a 및 b의 값은 동일해진다.
계속해서, 7.1 채널 또는 6.1 채널에서, 5.1 채널로의 다운믹스에 대하여 설명한다.
유저가 보았을 때 후방에 있는 스피커 Lrs, Rrs의 채널을 포함하는, 채널 C, L, R, Ls, Rs, Lrs, Rrs, LFE의 오디오 데이터가, C', L', R', Ls', Rs', LFE'를 포함하는 5.1 채널의 오디오 데이터로 변환된 경우, 다음 식 (3)의 계산이 행하여진다. 여기서, 채널 C', L', R', Ls', Rs', LFE'는, 다운믹스 후의 채널 C, L, R, Ls, Rs, LFE를 나타내고 있다. 또한, 식 (3)에서, C, L, R, Ls, Rs, Lrs, Rrs, LFE는, 채널 C, L, R, Ls, Rs, Lrs, Rrs, LFE의 오디오 데이터를 나타내고 있다.
C'=C
L'=L
R'=R
Ls'=Ls×d1+Lrs×d2
Rs'=Rs×d1+Rrs×d2
LFE'=LFE … (3)
또한, 식 (3)에서, d1 및 d2는 상수이며, 이들 상수 d1 및 d2는, 예를 들어 도 19에 나타낸, 「dmix_a_idx」 및 「dmix_b_idx」의 각 값에 대하여 정해지는 상수 등이 된다.
또한, 유저가 보았을 때 전방에 있는 스피커 Lc, Rc의 채널을 포함하는, 채널 C, L, R, Lc, Rc, Ls, Rs, LFE의 오디오 데이터가, C', L', R', Ls', Rs', LFE'를 포함하는 5.1 채널의 오디오 데이터로 변환된 경우, 다음 식 (4)의 계산이 행하여진다. 여기서, 채널 C', L', R', Ls', Rs', LFE'는, 다운믹스 후의 채널 C, L, R, Ls, Rs, LFE를 나타내고 있다. 또한, 식 (4)에서, C, L, R, Lc, Rc, Ls, Rs, LFE는, 채널 C, L, R, Lc, Rc, Ls, Rs, LFE의 오디오 데이터를 나타내고 있다.
C'=C+e1×(Lc+Rc)
L'=L+Lc×e2
R'=R+Rc×e2
Ls'=Ls
Rs'=Rs
LFE'=LFE … (4)
또한, 식 (4)에서, e1 및 e2는 상수이며, 이들 상수 e1 및 e2는, 예를 들어 도 19에 나타낸, 「dmix_a_idx」 및 「dmix_b_idx」의 각 값에 대하여 정해지는 상수 등이 된다.
또한, 유저가 보았을 때 전방 상측에 있는 스피커 Rvh, Lvh의 채널을 포함하는, 채널 C, L, R, Lvh, Rvh, Ls, Rs, LFE의 오디오 데이터가, C', L', R', Ls', Rs', LFE'를 포함하는 5.1 채널의 오디오 데이터로 변환된 경우, 다음 식 (5)의 계산이 행하여진다. 여기서, 채널 C', L', R', Ls', Rs', LFE'는, 다운믹스 후의 채널 C, L, R, Ls, Rs, LFE를 나타내고 있다. 또한, 식 (5)에서, C, L, R, Lvh, Rvh, Ls, Rs, LFE는, 채널 C, L, R, Lvh, Rvh, Ls, Rs, LFE의 오디오 데이터를 나타내고 있다.
C'=C
L'=L×f1+Lvh×f2
R'=R×f1+Rvh×f2
Ls'=Ls
Rs'=Rs
LFE'=LFE … (5)
또한, 식 (5)에서, f1 및 f2는 상수이며, 이들 상수 f1 및 f2는, 예를 들어 도 19에 나타낸, 「dmix_a_idx」 및 「dmix_b_idx」의 각 값에 대하여 정해지는 상수 등이 된다.
또한, 6.1 채널에서 5.1 채널로의 다운믹스를 행하는 경우에는, 다음과 같아진다. 즉, 채널 C, L, R, Ls, Rs, Cs, LFE의 오디오 데이터에서, C', L', R', Ls', Rs', LFE'를 포함하는 5.1 채널의 오디오 데이터로 변환된 경우, 다음 식 (6)의 계산이 행하여진다. 여기서, 채널 C', L', R', Ls', Rs', LFE'는, 다운믹스 후의 채널 C, L, R, Ls, Rs, LFE를 나타내고 있다. 또한, 식 (6)에서, C, L, R, Ls, Rs, Cs, LFE는, 채널 C, L, R, Ls, Rs, Cs, LFE의 오디오 데이터를 나타내고 있다.
C'=C
L'=L
R'=R
Ls'=Ls×g1+Cs×g2
Rs'=Rs×g1+Cs×g2
LFE'=LFE … (6)
또한, 식 (6)에서, g1 및 g2는 상수이며, 이들 상수 g1 및 g2는, 예를 들어 도 19에 나타낸, 「dmix_a_idx」 및 「dmix_b_idx」의 각 값에 대하여 정해지는 상수 등이 된다.
또한, 다운믹스의 음량 보정에 대한 글로벌 게인에 대하여 설명한다.
글로벌 다운믹스 게인은, 다운믹스에 의해, 커지거나 작아져버린 음성의 음량을 보정하기 위해 사용된다. dmx_gain5는, 7.1 채널이나 6.1 채널에서 5.1 채널로의 다운믹스의 보정값을 나타내고 있고, dmx_gain2는, 5.1 채널에서 2 채널로의 다운믹스의 보정값을 나타내고 있다. 또한, dmx_gain2는 7.1 채널에 대응하지 않은 복호 장치나 비트 스트림도 서포트하는 것이다.
또한, 그 어플리케이션과 동작은, DRC heavy compression과 유사하다. 또한, 부호화 장치가, 적절히, 오디오 프레임이 긴 기간 또는 지극히 짧은 기간에 대하여 선택적으로 평가하여, 글로벌 다운믹스 게인을 정할 수 있다.
7.1 채널에서 2 채널로의 다운믹스의 경우, 게인은 결합된 것, 즉 (dmx_gain5+dmx_gain2)가 적용된다. dmx_gain5와 dmx_gain2는, 6비트의 부호 없는 정수가 사용되고, 0.25dB 크기로 양자화된다.
따라서, dmx_gain5와 dmx_gain2를 결합한 것은, ±15.75dB의 범위의 값이 된다. 이들은, 복호된 현 프레임의 오디오 데이터의 샘플에 대하여 적용되는 게인값이다.
구체적으로는, 5.1 채널로의 다운믹스를 행하는 경우에는, 다음과 같아진다. 즉, 다운믹스에 의해 얻어진 채널 C', L', R', Ls', Rs', LFE'의 오디오 데이터에 대하여 게인 보정을 행하고, C", L", R", Ls", Rs", LFE"의 각 채널의 오디오 데이터로 할 경우, 다음 식 (7)의 계산이 행하여진다.
L"=L'×dmx_gain5
R"=R'×dmx_gain5
C"=C'×dmx_gain5
Ls"=Ls'×dmx_gain5
Rs"=Rs'×dmx_gain5
LFE"=LFE'×dmx_gain5 … (7)
여기서, dmx_gain5는 스칼라 값이며, 도 15에 도시한 「dmx_gain_5_sign」과 「dmx_gain_5_idx」로부터, 다음 식 (8)에 의해 구해지는 게인값이다.
dmx_gain5=10( dmx _ gain _5_ idx /20) if dmx_gain_5_sign==1
dmx_gain5=10(- dmx _ gain _5_ idx /20) if dmx_gain_5_sign==0 … (8)
마찬가지로, 2 채널로의 다운믹스를 행하는 경우에는, 다음과 같아진다. 즉, 다운믹스에 의해 얻어진 채널 L', R'의 오디오 데이터에 대하여 게인 보정을 행하고, L", R"의 각 채널의 오디오 데이터로 할 경우, 다음 식 (9)의 계산이 행하여진다.
L"=L'×dmx_gain2
R"=R'×dmx_gain2 … (9)
여기서, dmx_gain2는 스칼라 값이며, 도 15에 도시한 「dmx_gain_2_sign」과 「dmx_gain_2_idx」로부터, 다음 식 (10)에 의해 구해지는 게인값이다.
dmx_gain2=10( dmx _ gain _2_ idx /20) if dmx_gain_2_sign==1
dmx_gain2=10(- dmx _ gain _2_ idx /20) if dmx_gain_2_sign==0… (10)
또한, 7.1 채널에서 2 채널로 다운믹스할 경우에는, 7.1 채널에서 5.1 채널, 5.1 채널에서 2 채널로의 다운믹스가 행하여진 후에, 얻어진 신호(데이터)에 대하여 게인 조정이 행하여져도 된다. 그러한 경우, 오디오 데이터에 적용되는 게인값 dmx_gain_7to2는, 다음 식 (11)에 나타낸 바와 같이, dmx_gain5와 dmx_gain2를 결합함으로써 얻을 수 있다.
dmx_gain_7to2=dmx_gain_2×dmx_gain_5 … (11)
또한, 6.1 채널에서 2 채널로 다운믹스할 경우에도, 7.1 채널에서 2 채널로 다운믹스할 경우와 마찬가지이다.
또한, 예를 들어 7.1 채널에서 2 채널로 다운믹스할 경우에, 식 (7)이나 식 (9)의 계산을 행하여, 2단계로 게인 보정을 행하는 경우에는, 5.1 채널의 오디오 데이터와, 2 채널의 오디오 데이터의 출력이 가능하게 된다.
[DRC Presentation mode에 대해서]
또한, 도 7에 나타낸 「bs_info()」에 포함되어 있는 「drc_presentation_mode」는 도 20에 나타내는 바와 같이 되어 있다. 즉, 도 20은, 「drc_presentation_mode」의 구문을 도시하는 도면이다.
「drc_presentation_mode」가 「01」일 경우에는, 「DRC presentation mode 1」이 되고, 「drc_presentation_mode」가 「10」일 경우에는, 「DRC presentation mode 2」가 된다. 그리고, 「DRC presentation mode 1」 및 「DRC presentation mode 2」에서는, 도 21에 도시한 바와 같이 게인 컨트롤이 행하여진다.
[부호화 장치의 구성예]
이어서, 본 기술을 적용한 구체적인 실시 형태에 대하여 설명한다.
도 22는, 본 기술을 적용한 부호화 장치의 일 실시 형태의 구성예를 도시하는 도면이다. 부호화 장치(11)는 입력부(21), 부호화부(22) 및 패킹부(23)로 구성된다.
입력부(21)는, 외부로부터, 오디오 데이터와, 그 오디오 데이터에 관한 정보를 취득하여 부호화부(22)에 공급한다. 예를 들어, 오디오 데이터에 관한 정보로서, 스피커의 배치(배치 높이)에 관한 정보 등이 취득된다.
부호화부(22)는, 입력부(21)로부터 공급된 오디오 데이터와, 오디오 데이터에 관한 정보를 부호화하여 패킹부(23)에 공급한다. 패킹부(23)는, 부호화부(22)로부터 공급된 오디오 데이터나 오디오 데이터에 관한 정보를 패킹하고, 도 3에 도시한 부호화 비트 스트림을 생성하여, 출력한다.
[부호화 처리의 설명]
또한, 도 23의 흐름도를 참조하여, 부호화 장치(11)에 의한 부호화 처리에 대하여 설명한다.
스텝 S11에서, 입력부(21)는 오디오 데이터와, 그 오디오 데이터에 관한 정보를 취득하여 부호화부(22)에 공급한다. 예를 들어, 7.1 채널의 각 채널의 오디오 데이터와, 도 4에 도시한 「height_extension_element」에 저장되는 스피커의 배치에 관한 정보(이하, 스피커 배치 정보라고 함) 등이 취득된다.
스텝 S12에서, 부호화부(22)는, 입력부(21)로부터 공급된 각 채널의 오디오 데이터를 부호화한다.
스텝 S13에서, 부호화부(22)는, 입력부(21)로부터 공급된 스피커 배치 정보를 부호화한다. 이때, 부호화부(22)는, 도 4의 「height_extension_element」에 포함되는 「PCE_HEIGHT_EXTENSION_SYNC」에 저장되는 동기 워드를 생성하거나, 「height_info_crc_check」에 저장되는 식별 정보인 CRC 체크 코드를 생성해서, 이들의 동기 워드나 CRC 체크 코드를, 부호화한 스피커 배치 정보와 함께 패킹부(23)에 공급한다.
또한, 부호화부(22)는, 부호화 비트 스트림의 생성에 필요한 정보를 생성하여, 부호화된 오디오 데이터나 스피커 배치 정보와 함께 패킹부(23)에 공급한다.
스텝 S14에서, 패킹부(23)는, 부호화부(22)로부터 공급된 오디오 데이터나 스피커 배치 정보를 비트 패킹하여 도 3의 부호화 비트 스트림을 생성하고, 출력한다. 이때 패킹부(23)는, 스피커 배치 정보나 동기 워드, CRC 체크 코드 등을 「PCE」에 저장하고, 오디오 데이터를 「SCE」나 「CPE」에 저장한다.
부호화 비트 스트림이 출력되면, 부호화 처리는 종료한다.
이상과 같이 하여, 부호화 장치(11)는, 각 레이어에서의 스피커 배치에 관한 정보인 스피커 배치 정보를 부호화 비트 스트림에 포함하여, 부호화된 오디오 데이터를 출력한다. 이렇게 수직 방향의 스피커 배치 정보를 사용함으로써, 평면뿐만 아니라, 수직 방향의 음상 재현이 가능하게 되어, 보다 현장감이 높은 음성 재생이 가능하게 된다.
[복호 장치의 구성예]
이어서, 부호화 장치(11)로부터 출력된 부호화 비트 스트림을 수신하여 복호하는 복호 장치에 대하여 설명한다.
도 24는, 그러한 복호 장치의 구성예를 도시하는 도면이다. 복호 장치(51)는, 분리부(61), 복호부(62) 및 출력부(63)로 구성된다.
분리부(61)는, 부호화 장치(11)로부터 송신되어 온 부호화 비트 스트림을 수신함과 함께, 부호화 비트 스트림을 비트 언패킹하여 복호부(62)에 공급한다.
복호부(62)는, 분리부(61)로부터 공급된 부호화 비트 스트림, 즉 각 채널의 오디오 데이터나 스피커 배치 정보 등을 복호하고, 그것들의 복호에 의해 얻어진 오디오 데이터를 출력부(63)에 공급한다. 복호부(62)는, 필요에 따라 오디오 데이터의 다운믹스 등도 행한다.
출력부(63)는, 복호부(62)로부터 공급된 오디오 데이터를, 복호부(62)에 의해 지시된 스피커 배치(스피커 맵핑)에 따라서 출력한다. 출력부(63)로부터 출력된 각 채널의 오디오 데이터는, 각 채널의 스피커에 공급되어서 재생된다.
[복호 처리의 설명]
계속해서, 도 25의 흐름도를 참조하여, 복호 장치(51)에 의해 행하여지는 복호 처리에 대하여 설명한다.
스텝 S41에서, 복호부(62)는 오디오 데이터를 복호한다.
즉, 분리부(61)는, 부호화 장치(11)로부터 송신되어 온 부호화 비트 스트림을 수신함과 함께, 부호화 비트 스트림을 비트 언패킹한다. 그리고, 분리부(61)는, 비트 언패킹에 의해 얻어진 오디오 데이터와, 스피커 배치 정보 등의 각종 정보를 복호부(62)에 공급한다. 복호부(62)는, 분리부(61)로부터 공급된 오디오 데이터를 복호하여, 출력부(63)에 공급한다.
스텝 S42에서, 복호부(62)는, 분리부(61)로부터 공급된 정보로부터, 동기 워드를 검출한다. 구체적으로는, 도 4의 「height_extension_element」로부터 동기 워드가 검출된다.
스텝 S43에서, 복호부(62)는, 동기 워드가 검출되었는지 여부를 판정한다. 스텝 S43에서, 동기 워드가 검출되었다고 판정된 경우, 스텝 S44에서, 복호부(62)는 스피커 배치 정보를 복호한다.
즉, 복호부(62)는, 도 4에 도시한 「height_extension_element」로부터, 「front_element_height_info[i]」, 「side_element_height_info[i]」, 「back_element_height_info[i]」 등의 정보를 읽어나간다. 이에 의해, 각 오디오 데이터를, 어느 위치(채널)의 스피커에서 재생하면 되는지를 알 수 있다.
스텝 S45에서, 복호부(62)는 식별 정보를 생성한다. 즉, 복호부(62)는 「height_extension_element」의 「PCE_HEIGHT_EXTENSION_SYNC」부터 「byte_alignment()」까지의 사이에 읽혀진 정보, 즉 동기 워드, 스피커 배치 정보 및 바이트 얼라인먼트에 기초하여, CRC 체크 코드를 산출하여, 식별 정보로 한다.
스텝 S46에서, 복호부(62)는 스텝 S45에서 생성한 식별 정보와, 도 4에 도시한 「height_extension_element」의 「height_info_crc_check」에 포함되어 있는 식별 정보를 비교하고, 그것들의 식별 정보가 일치했는지 여부를 판정한다.
스텝 S46에서 식별 정보가 일치했다고 판정된 경우, 복호부(62)는, 복호에 의해 얻어진 오디오 데이터를 출력부(63)에 공급함과 함께, 얻어진 스피커 배치 정보에 기초하여, 오디오 데이터의 출력을 지시하고, 처리는 스텝 S47로 진행한다.
스텝 S47에서, 출력부(63)는, 복호부(62)로부터 공급된 오디오 데이터를, 복호부(62)에 의해 지시된 스피커 배치(스피커 맵핑)에 따라서 출력하고, 복호 처리는 종료한다.
이에 반해, 스텝 S43에서 동기 워드가 검출되지 않았다고 판정되었거나 또는 스텝 S46에서 식별 정보가 일치하지 않는다고 판정되었을 경우, 스텝 S48에서, 출력부(63)는 미리 정한 스피커 배치로 오디오 데이터를 출력한다.
즉, 스텝 S48의 처리가 행하여지는 것은, 「height_extension_element」로부터 정확하게 스피커 배치 정보를 판독할 수 없었을 경우이다. 이러한 경우, 복호부(62)는, 오디오 데이터를 출력부(63)에 공급함과 함께, 각 채널의 오디오 데이터가, 미리 정해진 각 채널의 스피커에서 재생되도록, 오디오 데이터의 출력을 지시한다. 그러면, 출력부(63)는, 복호부(62)의 지시에 따라서 오디오 데이터를 출력하고, 복호 처리는 종료한다.
이상과 같이 하여, 복호 장치(51)는, 부호화 비트 스트림에 포함되는 오디오 데이터나 스피커 배치 정보를 복호하여, 스피커 배치 정보에 기초해서 오디오 데이터를 출력한다. 스피커 배치 정보에는, 수직 방향의 스피커의 배치에 관한 정보가 포함되어 있으므로, 평면뿐만 아니라, 수직 방향의 음상 재현이 가능하게 되어, 보다 현장감이 높은 음성 재생이 가능하게 된다.
또한, 보다 상세하게는, 오디오 데이터의 복호 시에는, 필요에 따라 오디오 데이터의 다운믹스 등의 처리도 행하여진다.
이 경우, 예를 들어 복호부(62)는, 도 6에 나타낸 「MPEG4 ancillary data」에서의 「ancillary_data_status()」 내의 「ancillary_data_extension_status」가 「1」이면, 「MPEG4_ext_ancillary_data()」를 읽는다. 그리고, 복호부(62)는, 도 11에 도시한 「MPEG4_ext_ancillary_data()」에 포함되어 있는 각 정보를 읽어서, 오디오 데이터의 다운믹스나 게인 보정을 행한다.
예를 들어, 복호부(62)는, 7.1 채널이나 6.1 채널의 오디오 데이터를, 5.1 채널의 오디오 데이터로 다운믹스하거나, 또한 5.1 채널의 오디오 데이터를 2 채널의 오디오 데이터로 다운믹스한다.
또한, 이때, 복호부(62)는, 필요에 따라서 LFE 채널의 오디오 데이터를, 다운믹스에 사용한다. 또한, 각 채널에 승산되는 계수는, 도 13에 나타낸 「ext_downmixing_levels()」이나 도 16에 나타낸 「ext_downmixing_lfe_level()」이 참조되어 정해진다. 또한, 다운믹스 시의 게인 보정에는, 도 15에 도시한 「ext_downmixing_global_gains()」이 참조된다.
[부호화 장치의 구성예]
이어서, 이상에서 설명한 부호화 장치와 복호 장치의 보다 상세한 구성예와, 그것들의 장치의 보다 상세한 동작에 대하여 설명한다.
도 26은, 부호화 장치의 보다 상세한 구성예를 도시하는 도면이다.
부호화 장치(91)는, 입력부(21), 부호화부(22) 및 패킹부(23)로 구성된다. 또한, 도 26에서, 도 22에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절히 생략한다.
부호화부(22)는, PCE 부호화부(101), DSE 부호화부(102) 및 오디오 엘리먼트 부호화부(103)를 구비하고 있다.
PCE 부호화부(101)는, 입력부(21)로부터 공급된 정보에 기초하여 PCE의 부호화를 행한다. 즉, PCE 부호화부(101)는, 필요에 따라 각 정보의 부호화를 행하면서, PCE에 저장되는 각 정보를 생성한다. PCE 부호화부(101)는, 동기 워드 부호화부(111), 배치 정보 부호화부(112) 및 식별 정보 부호화부(113)를 구비하고 있다.
동기 워드 부호화부(111)는, 동기 워드를 부호화하고, 부호화된 동기 워드를 PCE의 코멘트 영역에 포함되는 확장 영역에 저장되는 정보로 한다. 배치 정보 부호화부(112)는, 입력부(21)로부터 공급된, 각 오디오 데이터에 대한 스피커의 높이(레이어)를 나타내는 스피커 배치 정보를 부호화하여, 코멘트 영역 내의 확장 영역에 저장되는 정보로 한다.
식별 정보 부호화부(113)는, 식별 정보의 부호화를 행한다. 예를 들어, 식별 정보 부호화부(113)는, 필요에 따라 동기 워드 및 스피커 배치 정보에 기초하여 식별 정보로서 CRC 체크 코드를 생성하고, 코멘트 영역 내의 확장 영역에 저장되는 정보로 한다.
DSE 부호화부(102)는, 입력부(21)로부터 공급된 정보에 기초하여 DSE의 부호화를 행한다. 즉, DSE 부호화부(102)는, 필요에 따라 각 정보의 부호화를 행하면서, DSE에 저장되는 각 정보를 생성한다. DSE 부호화부(102)는, 확장 정보 부호화부(114) 및 다운믹스 정보 부호화부(115)를 구비하고 있다.
확장 정보 부호화부(114)는, DSE의 확장 영역인 「MPEG4_ext_ancillary_data()」에 확장 정보가 포함되어 있는지 여부를 나타내는 정보(플래그)를 부호화한다. 다운믹스 정보 부호화부(115)는, 오디오 데이터의 다운믹스에 관한 정보를 부호화한다. 오디오 엘리먼트 부호화부(103)는, 입력부(21)로부터 공급된 오디오 데이터를 부호화한다.
부호화부(22)는, 각종 데이터의 부호화에 의해 얻어진, 각 엘리먼트에 저장되는 정보를 패킹부(23)에 공급한다.
[부호화 처리의 설명]
여기서, 도 27의 흐름도를 참조하여, 부호화 장치(91)에 의해 행하여지는 부호화 처리에 대하여 설명한다. 또한, 이 부호화 처리는, 도 23의 흐름도를 참조하여 설명한 처리의 보다 상세한 처리이다.
스텝 S71에서, 입력부(21)는, 오디오 데이터와, 그 오디오 데이터의 부호화에 필요한 정보를 취득하여 부호화부(22)에 공급한다.
예를 들어, 입력부(21)는, 오디오 데이터로서 각 채널의 PCM(Pulse Code Modulation) 데이터, 각 채널의 스피커 배치를 나타내는 정보, 다운믹스 계수를 특정하기 위한 정보 및 부호화 비트 스트림의 비트 레이트를 나타내는 정보를 취득한다. 여기서, 다운믹스 계수를 특정하기 위한 정보란, 7.1 또는 6.1 채널에서 5.1 채널로의 다운믹스 및 5.1 채널에서 2 채널로의 다운믹스를 행할 때에 각 채널의 오디오 데이터에 승산되는 계수를 나타내는 정보이다.
또한, 입력부(21)는, 이제부터 얻고자 하는 부호화 비트 스트림의 파일명을 취득한다. 이 파일명은 적절히, 부호화측의 장치에서 사용된다.
스텝 S72에서, 오디오 엘리먼트 부호화부(103)는, 입력부(21)로부터 공급된 오디오 데이터를 부호화하여, SCE, CPE 및 LFE의 각 엘리먼트에 저장되는 데이터로 한다. 이때, 오디오 데이터는, 입력부(21)로부터 부호화부(22)에 공급된 비트 레이트와, 오디오 데이터 이외의 다른 정보의 부호량으로부터 정해지는 비트 레이트로 부호화된다.
또한, 예를 들어 C 채널이나 Cs 채널의 오디오 데이터가 부호화되어, SCE에 저장되는 데이터가 되고, L 채널이나 R 채널의 오디오 데이터가 부호화되어, CPE에 저장되는 데이터가 된다. 또한, LFE 채널의 오디오 데이터가 부호화되어, LFE에 저장되는 데이터가 된다.
스텝 S73에서, 동기 워드 부호화부(111)는, 입력부(21)로부터 공급된 정보에 기초하여 동기 워드를 부호화하고, 부호화된 동기 워드를 도 4에 도시한 「height_extension_element」에 포함되는 「PCE_HEIGHT_EXTENSION_SYNC」에 저장되는 정보로 한다.
스텝 S74에서, 배치 정보 부호화부(112)는, 입력부(21)로부터 공급된, 각 오디오 데이터의 스피커 배치 정보를 부호화한다.
부호화된 스피커 배치 정보는, 패킹부(23)에 있어서 음원 위치, 즉 스피커 배치에 따른 순서로 「height_extension_element」 내에 저장된다. 즉, 유저가 보았을 때 전방에 배치되는 스피커에서 재생되는 각 채널의 스피커 높이(음원의 높이)를 나타내는 스피커 배치 정보는, 「front_element_height_info[i]」로서 「height_extension_element」 내에 저장된다.
「front_element_height_info[i]」에 이어, 유저가 보았을 때 측방에 배치되는 스피커에서 재생되는 각 채널의 스피커 높이를 나타내는 스피커 배치 정보가, 「side_element_height_info[i]」로서 「height_extension_element」 내에 저장된다. 또한, 그 후에는, 유저가 보았을 때 후방에 배치되는 스피커에서 재생되는 각 채널의 스피커 높이를 나타내는 스피커 배치 정보가, 「back_element_height_info[i]」로서 「height_extension_element」 내에 저장된다.
스텝 S75에서, 식별 정보 부호화부(113)는, 식별 정보의 부호화를 행한다. 예를 들어, 식별 정보 부호화부(113)는, 필요에 따라 동기 워드 및 스피커 배치 정보에 기초하여 식별 정보로서 CRC 체크 코드를 생성하고, 「height_extension_element」의 「height_info_crc_check」에 저장되는 정보로 한다. 동기 워드와 CRC 체크 코드는, 부호화 비트 스트림에서의 스피커 배치 정보의 유무를 식별하기 위한 정보이다.
또한, 식별 정보 부호화부(113)는, 바이트 얼라인먼트의 실행을 지시하는 정보를 「height_extension_element」의 「byte_alignment()」에 저장되는 정보로서 생성한다. 또한, 식별 정보 부호화부(113)는, 식별 정보의 대조를 지시하는 정보를 「height_extension_element」에서의 「if(crc_cal()!=height_info_crc_check)」에 저장되는 정보로서 생성한다.
이상의 스텝 S73 내지 스텝 S75의 처리에 의해, PCE의 코멘트 영역에 포함되는 확장 영역, 즉 「height_extension_element」에 저장해야 할 정보가 생성된다.
스텝 S76에서, PCE 부호화부(101)는, 입력부(21)로부터 공급된 정보나, 지금까지 생성된 확장 영역의 정보 등에 기초하여 PCE의 부호화를 행한다.
예를 들어, PCE 부호화부(101)는, 전방, 측방 및 후방 각각에 배치되는 스피커에서 재생되는 각 채널의 수나, 각 오디오 데이터가 C, L, R 등의 채널 중 어느 채널의 데이터인지를 나타내는 정보 등을, PCE에 저장되는 정보로서 생성한다.
스텝 S77에서, 확장 정보 부호화부(114)는, 입력부(21)로부터 공급된 정보에 기초하여, DSE의 확장 영역에 확장 정보가 포함되어 있는지 여부를 나타내는 정보를 부호화하고, 도 8의 「ancillary_data_status()」의 「ancillary_data_extension_status」에 저장되는 정보로 한다. 예를 들어, 「ancillary_data_extension_status」에는, 확장 정보가 포함되어 있는지 여부를 나타내는 정보, 즉 확장 정보의 유무를 나타내는 정보로서 「0」 또는 「1」이 저장된다.
스텝 S78에서, 다운믹스 정보 부호화부(115)는, 입력부(21)로부터 공급된 정보에 기초하여, 오디오 데이터의 다운믹스에 관한 정보를 부호화한다.
예를 들어, 다운믹스 정보 부호화부(115)는, 입력부(21)로부터 공급된 다운믹스 계수를 특정하기 위한 정보의 부호화를 행한다. 구체적으로는, 다운믹스 정보 부호화부(115)는, 5.1 채널에서 2 채널로의 다운믹스를 행할 때에 각 채널의 오디오 데이터에 승산되는 계수를 나타내는 정보를 부호화하여, 도 9의 「downmixing_levels_MPEG4()」에 저장되는 「center_mix_level_value」 및 「surround_mix_level_value」로 한다.
또한, 다운믹스 정보 부호화부(115)는, 5.1 채널에서 2 채널로의 다운믹스를 행할 때에 LFE 채널의 오디오 데이터에 승산되는 계수를 나타내는 정보를 부호화하여, 도 16의 「ext_downmixing_lfe_level()」에 저장되는 「dmix_lfe_idx」로 한다. 동시에, 다운믹스 정보 부호화부(115)는, 입력부(21)로부터 공급된, 2 채널로의 다운믹스의 처리 수순을 나타내는 정보를 부호화하여, 도 7의 「bs_info()」에 저장되는 「pseudo_surround_enable」로 한다.
또한, 다운믹스 정보 부호화부(115)는, 7.1 또는 6.1 채널에서 5.1 채널로의 다운믹스를 행할 때에 각 채널의 오디오 데이터에 승산되는 계수를 나타내는 정보를 부호화하여, 도 13의 「ext_downmixing_levels」에 저장되는 「dmix_a_idx」 및 「dmix_b_idx」로 한다.
또한, 다운믹스 정보 부호화부(115)는, 5.1 채널에서 2 채널로의 다운믹스에서 LFE 채널을 사용하는지를 나타내는 정보를 부호화하여, 확장 영역인 도 11의 「ext_ancillary_data_status()」 내에 있는, 도 12의 「ext_downmixing_lfe_level_status」에 저장되는 정보로 한다.
또한, 다운믹스 정보 부호화부(115)는, 다운믹스 시의 게인 조정을 행하는데 필요한 정보를 부호화하여 도 11의 「MPEG4_ext_ancillary_data()」 내의 「ext_downmixing_global_gains」에 저장되는 정보로 한다.
스텝 S79에서, DSE 부호화부(102)는, 입력부(21)로부터 공급된 정보나, 지금까지 생성된 다운믹스에 관한 정보 등에 기초하여 DSE의 부호화를 행한다.
이상의 처리에 의해, PCE, SCE, CPE, LFE 및 DSE의 각 엘리먼트에 저장해야 할 정보가 얻어진다. 부호화부(22)는, 이들 각 엘리먼트에 저장해야 할 정보를 패킹부(23)에 공급한다. 또한, 부호화부(22)는, 필요에 따라 「Header/Sideinfo」나 「FIL(DRC)」, 「FIL(END)」 등의 엘리먼트를 생성하여, 패킹부(23)에 공급한다.
스텝 S80에서, 패킹부(23)는, 부호화부(22)로부터 공급된 오디오 데이터나 스피커 배치 정보 등을 비트 패킹하여 도 3의 부호화 비트 스트림을 생성하고, 출력한다. 예를 들어 패킹부(23)는, PCE나 DSE에 부호화부(22)로부터 공급된 정보를 저장함으로써 부호화 비트 스트림을 생성한다. 부호화 비트 스트림이 출력되면, 부호화 처리는 종료한다.
이상과 같이 하여 부호화 장치(91)는, 스피커 배치 정보나, 다운믹스에 관한 정보, 확장 영역에 확장 정보가 포함되어 있는지를 나타내는 정보 등을 부호화 비트 스트림에 포함해서, 부호화된 오디오 데이터를 출력한다. 이렇게 스피커 배치 정보나, 다운믹스에 관한 정보 등을 부호화 비트 스트림에 저장함으로써, 부호화 비트 스트림의 복호측에서는, 보다 현장감이 있는 고품질의 음성을 얻을 수 있게 된다.
예를 들어, 부호화 비트 스트림에 수직 방향의 스피커 배치 정보를 저장함으로써, 복호측에서는, 평면뿐만 아니라, 수직 방향의 음상 재현이 가능하게 되어, 보다 현장감이 높은 음성 재생이 가능하게 된다.
게다가, 부호화 비트 스트림에는, 코멘트 영역 내의 확장 영역에 저장되어 있는 정보가, 스피커 배치 정보인지, 다른 코멘트 등의 텍스트 정보인지를 식별하기 위해, 스피커 배치 정보를 식별하는 복수의 식별 정보(식별 코드)가 포함되어 있다. 여기에서는, 식별 정보로서, 스피커 배치 정보 직전에 배치되는 동기 워드와, 스피커 배치 정보 등이 저장된 정보 내용에 의해 정해지는 CRC 체크 코드가 부호화 비트 스트림에 포함되어 있다.
이들 2개의 식별 정보를 부호화 비트 스트림에 포함함으로써, 부호화 비트 스트림에 포함되어 있는 정보가 스피커 배치 정보인지를 보다 확실하게 특정할 수 있게 된다. 그 결과, 얻어진 스피커 배치 정보를 사용하여, 보다 현장감이 있는 고품질의 음성을 얻을 수 있다.
또한, 부호화 비트 스트림에는, 오디오 데이터의 다운믹스를 위한 정보로서, DSE에 「pseudo_surround_enable」이 포함되어 있다. 이 정보에 의하면, 5.1 채널에서 2 채널로의 다운믹스 처리의 방법으로서, 복수의 방법 중 어느 하나를 지정하는 것이 가능하게 되므로, 오디오 데이터의 복호측의 자유도를 보다 높일 수 있다.
구체적으로는, 이 실시 형태에서는, 5.1 채널에서 2 채널로의 다운믹스 처리의 방법으로서, 상술한 식 (1)을 계산하는 방법과, 식 (2)를 계산하는 방법이 있다. 예를 들어, 복호측에 있어서, 다운믹스에 의해 얻어진 2 채널의 오디오 데이터가, 또한 재생 장치에 전송되고, 재생 장치에 있어서 2 채널의 오디오 데이터가, 5.1 채널의 오디오 데이터로 변환되어 재생되는 것으로 한다.
그러한 경우, 식 (1)에 의한 방법과 식 (2)에 의한 방법에서는, 어느 하나의 방법으로 얻어진 오디오 데이터에 대해서는, 최종적으로 얻어지는 5.1 채널의 오디오 데이터를 재생했을 때에 미리 상정한 적절한 음향 효과가 얻어지지 않게 되어버릴 가능성도 있다.
그러나, 부호화 장치(91)에서 얻어지는 부호화 비트 스트림에서는, 복호측에서 상정한 음향 효과를 얻을 수 있는 다운믹스 방법을 「pseudo_surround_enable」에 의해 지정할 수 있으므로, 복호측에서는 보다 현장감이 있는 고품질의 음성을 얻을 수 있다.
또한, 부호화 비트 스트림에는, 확장 정보가 포함되어 있는지를 나타내는 정보(플래그)가 「ancillary_data_extension_status」에 저장되어 있다. 따라서, 이 정보를 참조하면, 확장 영역인 「MPEG4_ext_ancillary_data()」에 확장 정보가 포함되어 있는지를 특정할 수 있다.
예를 들어, 이 예에서는 확장 정보로서, 「ext_ancillary_data_status()」, 「ext_downmixing_levels()」, 「ext_downmixing_global_gains」 및 「ext_downmixing_lfe_level()」이 필요에 따라서 확장 영역에 저장되어 있다.
이러한 확장 정보를 얻을 수 있으면, 보다 높은 자유도로 오디오 데이터를 다운믹스할 수 있어, 다양한 오디오 데이터를 복호측에서 얻을 수 있다. 그 결과, 보다 현장감이 있는 고품질의 음성을 얻을 수 있게 된다.
[복호 장치의 구성예]
계속해서, 복호 장치의 보다 상세한 구성에 대하여 설명한다.
도 28은, 복호 장치의 보다 상세한 구성예를 도시하는 도면이다. 또한, 도 28에서, 도 24에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절히 생략한다.
복호 장치(141)는, 분리부(61), 복호부(62), 전환부(151), 다운믹스 처리부(152) 및 출력부(63)로 구성된다.
분리부(61)는, 부호화 장치(91)로부터 출력된 부호화 비트 스트림을 수신하여 언패킹하고, 복호부(62)에 공급함과 함께, 다운믹스 형식 파라미터와 오디오 데이터의 파일명을 취득한다.
여기서, 다운믹스 형식 파라미터는, 복호 장치(141)에 있어서, 부호화 비트 스트림에 포함되어 있는 오디오 데이터의 다운믹스의 형식을 나타내는 정보이다. 예를 들어, 다운믹스 형식 파라미터로서, 7.1 채널 또는 6.1 채널에서 5.1 채널로의 다운믹스를 행하는 취지의 정보, 7.1 채널 또는 6.1 채널에서 2 채널로의 다운믹스를 행하는 취지의 정보, 5.1 채널에서 2 채널로의 다운믹스를 행하는 취지의 정보 또는 다운믹스를 행하지 않는 취지의 정보가 포함되어 있다.
분리부(61)에 의해 취득된 다운믹스 형식 파라미터는, 전환부(151) 및 다운믹스 처리부(152)에 공급된다. 또한, 분리부(61)에 의해 취득된 파일명은, 적절히, 복호 장치(141)에서 사용된다.
복호부(62)는, 분리부(61)로부터 공급된 부호화 비트 스트림의 복호를 행한다. 복호부(62)는, PCE 복호부(161), DSE 복호부(162) 및 오디오 엘리먼트 복호부(163)로 구성된다.
PCE 복호부(161)는, 부호화 비트 스트림에 포함되는 PCE를 복호하고, 그 결과 얻어진 정보를 다운믹스 처리부(152) 및 출력부(63)에 공급한다. PCE 복호부(161)에는, 동기 워드 검출부(171)와 식별 정보 산출부(172)가 설치되어 있다.
동기 워드 검출부(171)는, PCE의 코멘트 영역 내에 있는 확장 영역으로부터 동기 워드를 검출하여, 동기 워드를 판독한다. 또한, 식별 정보 산출부(172)는, PCE의 코멘트 영역 내에 있는 확장 영역으로부터 판독된 정보에 기초하여 식별 정보를 산출한다.
DSE 복호부(162)는, 부호화 비트 스트림에 포함되는 DSE를 복호하고, 그 결과 얻어진 정보를 다운믹스 처리부(152)에 공급한다. DSE 복호부(162)에는, 확장 검출부(173)와 다운믹스 정보 복호부(174)가 설치되어 있다.
확장 검출부(173)는, DSE의 「MPEG4_ancillary_data()」에, 확장 정보가 포함되어 있는지 여부를 검출한다. 다운믹스 정보 복호부(174)는, DSE에 포함되어 있는 다운믹스에 관한 정보의 복호를 행한다.
오디오 엘리먼트 복호부(163)는, 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하여, 전환부(151)에 공급한다.
전환부(151)는, 분리부(61)로부터 공급된 다운믹스 형식 파라미터에 기초하여, 복호부(62)로부터 공급된 오디오 데이터의 출력처를, 다운믹스 처리부(152) 또는 출력부(63) 중 어느 하나로 전환한다.
다운믹스 처리부(152)는, 분리부(61)로부터의 다운믹스 형식 파라미터 및 복호부(62)로부터의 정보에 기초하여, 전환부(151)로부터 공급된 오디오 데이터를 다운믹스하고, 그 결과 얻어진 오디오 데이터를 출력부(63)에 공급한다.
출력부(63)는, 복호부(62)로부터 공급된 정보에 기초하여, 전환부(151) 또는 다운믹스 처리부(152)로부터 공급된 오디오 데이터를 출력한다. 출력부(63)는, 재배열 처리부(181)를 구비하고 있다. 재배열 처리부(181)는, PCE 복호부(161)로부터 공급된 정보에 기초하여, 전환부(151)로부터 공급된 오디오 데이터를 재배열하고, 출력한다.
[다운믹스 처리부의 구성예]
또한, 도 28의 다운믹스 처리부(152)는, 보다 상세하게는 도 29에 도시한 바와 같이 구성된다. 즉, 다운믹스 처리부(152)는, 전환부(211), 전환부(212), 다운믹스부(213-1) 내지 다운믹스부(213-4), 전환부(214), 게인 조정부(215), 전환부(216), 다운믹스부(217-1), 다운믹스부(217-2) 및 게인 조정부(218)로 구성된다.
전환부(211)는, 전환부(151)로부터 공급된 오디오 데이터를, 전환부(212) 또는 전환부(216) 중 어느 하나에 공급한다. 예를 들어, 오디오 데이터의 출력처는, 오디오 데이터가 7.1 채널 또는 6.1 채널의 데이터일 경우, 전환부(212)가 되고, 오디오 데이터가 5.1 채널의 데이터일 경우, 전환부(216)가 된다.
전환부(212)는, 전환부(211)로부터 공급된 오디오 데이터를, 다운믹스부(213-1) 내지 다운믹스부(213-4) 중 어느 하나에 공급한다. 예를 들어, 전환부(212)에 의한 오디오 데이터의 출력처는, 오디오 데이터가 6.1 채널의 데이터일 경우, 다운믹스부(213-1)가 된다.
또한, 오디오 데이터가, L, Lc, C, Rc, R, Ls, Rs, LFE의 각 채널의 데이터일 경우, 전환부(212)는 전환부(211)로부터의 오디오 데이터를 다운믹스부(213-2)에 공급한다. 오디오 데이터가, L, R, C, Ls, Rs, Lrs, Rrs, LFE의 각 채널의 데이터일 경우, 전환부(212)는, 전환부(211)로부터의 오디오 데이터를 다운믹스부(213-3)에 공급한다.
또한, 오디오 데이터가, L, R, C, Ls, Rs, Lvh, Rvh, LFE의 각 채널의 데이터일 경우, 전환부(212)는, 전환부(211)로부터의 오디오 데이터를 다운믹스부(213-4)에 공급한다.
다운믹스부(213-1) 내지 다운믹스부(213-4)는, 전환부(212)로부터 공급된 오디오 데이터를 5.1 채널의 오디오 데이터에 다운믹스하여, 전환부(214)에 공급한다. 또한, 이하, 다운믹스부(213-1) 내지 다운믹스부(213-4)를 특별히 구별할 필요가 없을 경우, 간단히 다운믹스부(213)라고도 한다.
전환부(214)는, 다운믹스부(213)로부터 공급된 오디오 데이터를, 게인 조정부(215) 또는 전환부(216) 중 어느 하나에 공급한다. 예를 들어, 부호화 비트 스트림에 포함되어 있는 오디오 데이터가, 5.1 채널에 다운믹스되는 경우에는, 전환부(214)는, 게인 조정부(215)에 오디오 데이터를 공급한다. 이에 반해, 부호화 비트 스트림에 포함되어 있는 오디오 데이터가, 2 채널에 다운믹스되는 경우에는, 전환부(214)는 전환부(216)에 오디오 데이터를 공급한다.
게인 조정부(215)는, 전환부(214)로부터 공급된 오디오 데이터의 게인을 조정하여 출력부(63)에 공급한다.
전환부(216)는, 전환부(211) 또는 전환부(214)로부터 공급된 오디오 데이터를, 다운믹스부(217-1) 또는 다운믹스부(217-2)에 공급한다. 예를 들어, 부호화 비트 스트림의 DSE에 포함되는 「pseudo_surround_enable」의 값에 따라, 전환부(216)에 의한 오디오 데이터의 출력처가 전환된다.
다운믹스부(217-1) 및 다운믹스부(217-2)는, 전환부(216)로부터 공급된 오디오 데이터를 2 채널의 데이터에 다운믹스하여, 게인 조정부(218)에 공급한다. 또한, 이하, 다운믹스부(217-1) 및 다운믹스부(217-2)를 특별히 구별할 필요가 없을 경우, 간단히 다운믹스부(217)라고도 한다.
게인 조정부(218)는, 다운믹스부(217)로부터 공급된 오디오 데이터의 게인을 조정하여, 출력부(63)에 공급한다.
[다운믹스부의 구성예]
또한, 도 29의 다운믹스부(213) 및 다운믹스부(217)의 보다 상세한 구성예에 대하여 설명한다.
도 30은, 도 29의 다운믹스부(213-1)의 구성예를 도시하는 도면이다.
다운믹스부(213-1)는, 입력 단자(241-1) 내지 입력 단자(241-7), 승산부(242) 내지 승산부(244), 가산부(245), 가산부(246) 및 출력 단자(247-1) 내지 출력 단자(247-6)로 구성된다.
입력 단자(241-1) 내지 입력 단자(241-7)에는, 각각 전환부(212)로부터, L, R, C, Ls, Rs, Cs, LFE의 각 채널의 오디오 데이터가 공급된다.
입력 단자(241-1) 내지 입력 단자(241-3)는, 전환부(212)로부터 공급된 오디오 데이터를, 출력 단자(247-1) 내지 출력 단자(247-3)를 통해, 그대로 전환부(214)에 공급한다. 즉, 다운믹스부(213-1)에 공급된 L, R, C의 각 채널의 오디오 데이터는, 그대로 다운믹스 후의 L, R, C의 각 채널의 오디오 데이터로서 후단에 출력된다.
입력 단자(241-4) 내지 입력 단자(241-6)는, 전환부(212)로부터 공급된 오디오 데이터를 승산부(242) 내지 승산부(244)에 공급한다. 승산부(242)는, 입력 단자(241-4)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(245)에 공급한다.
승산부(243)는, 입력 단자(241-5)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여 가산부(246)에 공급한다. 승산부(244)는, 입력 단자(241-6)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(245) 및 가산부(246)에 공급한다.
가산부(245)는, 승산부(242)로부터 공급된 오디오 데이터와, 승산부(244)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(247-4)에 공급한다. 출력 단자(247-4)는, 가산부(245)로부터 공급된 오디오 데이터를, 다운믹스 후의 Ls 채널의 오디오 데이터로서 전환부(214)에 공급한다.
가산부(246)는, 승산부(243)로부터 공급된 오디오 데이터와, 승산부(244)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(247-5)에 공급한다. 출력 단자(247-5)는, 가산부(246)로부터 공급된 오디오 데이터를, 다운믹스 후의 Rs 채널의 오디오 데이터로서 전환부(214)에 공급한다.
입력 단자(241-7)는, 전환부(212)로부터 공급된 오디오 데이터를, 출력 단자(247-6)를 통해 그대로 전환부(214)에 공급한다. 즉, 다운믹스부(213-1)에 공급된 LFE 채널의 오디오 데이터는, 그대로 다운믹스 후의 LFE 채널의 오디오 데이터로서 후단에 출력된다.
또한, 이하, 입력 단자(241-1) 내지 입력 단자(241-7)를 특별히 구별할 필요가 없을 경우, 간단히 입력 단자(241)라고도 하며, 출력 단자(247-1) 내지 출력 단자(247-6)를 특별히 구별할 필요가 없을 경우, 간단히 출력 단자(247)라고도 하기로 한다.
이와 같이, 다운믹스부(213-1)에서는, 상술한 식 (6)의 계산에 상당하는 처리가 행하여진다.
도 31은, 도 29의 다운믹스부(213-2)의 구성예를 도시하는 도면이다.
다운믹스부(213-2)는, 입력 단자(271-1) 내지 입력 단자(271-8), 승산부(272) 내지 승산부(275), 가산부(276), 가산부(277), 가산부(278) 및 출력 단자(279-1) 내지 출력 단자(279-6)로 구성된다.
입력 단자(271-1) 내지 입력 단자(271-8)에는, 각각 전환부(212)로부터, L, Lc, C, Rc, R, Ls, Rs, LFE의 각 채널의 오디오 데이터가 공급된다.
입력 단자(271-1) 내지 입력 단자(271-5)는, 전환부(212)로부터 공급된 오디오 데이터를, 각각 가산부(276), 승산부(272) 및 승산부(273), 가산부(277), 승산부(274) 및 승산부(275), 및 가산부(278)에 공급한다.
승산부(272) 및 승산부(273)는, 입력 단자(271-2)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(276) 및 가산부(277)에 공급한다. 또한, 승산부(274) 및 승산부(275)는, 입력 단자(271-4)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(277) 및 가산부(278)에 공급한다.
가산부(276)는, 입력 단자(271-1)로부터 공급된 오디오 데이터와, 승산부(272)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(279-1)에 공급한다. 출력 단자(279-1)는,, 가산부(276)로부터 공급된 오디오 데이터를, 다운믹스 후의 L 채널의 오디오 데이터로서 전환부(214)에 공급한다.
가산부(277)는, 입력 단자(271-3)로부터 공급된 오디오 데이터, 승산부(273)로부터 공급된 오디오 데이터 및 승산부(274)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(279-2)에 공급한다. 출력 단자(279-2)는, 가산부(277)로부터 공급된 오디오 데이터를, 다운믹스 후의 C 채널의 오디오 데이터로서 전환부(214)에 공급한다.
가산부(278)는, 입력 단자(271-5)로부터 공급된 오디오 데이터와, 승산부(275)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(279-3)에 공급한다. 출력 단자(279-3)는,, 가산부(278)로부터 공급된 오디오 데이터를, 다운믹스 후의 R 채널의 오디오 데이터로서 전환부(214)에 공급한다.
입력 단자(271-6) 내지 입력 단자(271-8)는, 전환부(212)로부터 공급된 오디오 데이터를, 출력 단자(279-4) 내지 출력 단자(279-6)를 통해, 그대로 전환부(214)에 공급한다. 즉, 다운믹스부(213-2)에 공급된 Ls, Rs, LFE의 각 채널의 오디오 데이터는, 그대로 다운믹스 후의 Ls, Rs, LFE의 각 채널의 오디오 데이터로서 후단에 출력된다.
또한, 이하, 입력 단자(271-1) 내지 입력 단자(271-8)를 특별히 구별할 필요가 없을 경우, 간단히 입력 단자(271)라고도 하고, 출력 단자(279-1) 내지 출력 단자(279-6)를 특별히 구별할 필요가 없을 경우, 간단히 출력 단자(279)라고도 하기로 한다.
이와 같이, 다운믹스부(213-2)에서는, 상술한 식 (4)의 계산에 상당하는 처리가 행하여진다.
또한, 도 32는, 도 29의 다운믹스부(213-3)의 구성예를 도시하는 도면이다.
다운믹스부(213-3)는, 입력 단자(301-1) 내지 입력 단자(301-8), 승산부(302) 내지 승산부(305), 가산부(306), 가산부(307) 및 출력 단자(308-1) 내지 출력 단자(308-6)로 구성된다.
입력 단자(301-1) 내지 입력 단자(301-8)에는, 각각 전환부(212)로부터, L, R, C, Ls, Rs, Lrs, Rrs, LFE의 각 채널의 오디오 데이터가 공급된다.
입력 단자(301-1) 내지 입력 단자(301-3)는, 전환부(212)로부터 공급된 오디오 데이터를, 출력 단자(308-1) 내지 출력 단자(308-3)를 통해 그대로 전환부(214)에 공급한다. 즉, 다운믹스부(213-3)에 공급된 L, R, C의 각 채널의 오디오 데이터는, 그대로 다운믹스 후의 L, R, C의 각 채널의 오디오 데이터로서 후단에 출력된다.
입력 단자(301-4) 내지 입력 단자(301-7)는, 전환부(212)로부터 공급된 오디오 데이터를 승산부(302) 내지 승산부(305)에 공급한다. 승산부(302) 내지 승산부(305)는, 입력 단자(301-4) 내지 입력 단자(301-7)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(306), 가산부(307), 가산부(306) 및 가산부(307)에 공급한다.
가산부(306)는, 승산부(302)로부터 공급된 오디오 데이터와, 승산부(304)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(308-4)에 공급한다. 출력 단자(308-4)는, 가산부(306)로부터 공급된 오디오 데이터를, 다운믹스 후의 Ls 채널의 오디오 데이터로서 전환부(214)에 공급한다.
가산부(307)는, 승산부(303)로부터 공급된 오디오 데이터와, 승산부(305)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(308-5)에 공급한다. 출력 단자(308-5)는, 가산부(307)로부터 공급된 오디오 데이터를, 다운믹스 후의 Rs 채널의 오디오 데이터로서 전환부(214)에 공급한다.
입력 단자(301-8)는, 전환부(212)로부터 공급된 오디오 데이터를, 출력 단자(308-6)를 통해 그대로 전환부(214)에 공급한다. 즉, 다운믹스부(213-3)에 공급된 LFE 채널의 오디오 데이터는, 그대로 다운믹스 후의 LFE 채널의 오디오 데이터로서 후단에 출력된다.
또한, 이하, 입력 단자(301-1) 내지 입력 단자(301-8)를 특별히 구별할 필요가 없을 경우, 간단히 입력 단자(301)라고도 하고, 출력 단자(308-1) 내지 출력 단자(308-6)를 특별히 구별할 필요가 없을 경우, 간단히 출력 단자(308)라고도 하기로 한다.
이와 같이, 다운믹스부(213-3)에서는, 상술한 식 (3)의 계산에 상당하는 처리가 행하여진다.
도 33은, 도 29의 다운믹스부(213-4)의 구성예를 도시하는 도면이다.
다운믹스부(213-4)는, 입력 단자(331-1) 내지 입력 단자(331-8), 승산부(332) 내지 승산부(335), 가산부(336), 가산부(337) 및 출력 단자(338-1) 내지 출력 단자(338-6)로 구성된다.
입력 단자(331-1) 내지 입력 단자(331-8)에는, 각각 전환부(212)로부터, L, R, C, Ls, Rs, Lvh, Rvh, LFE의 각 채널의 오디오 데이터가 공급된다.
입력 단자(331-1) 및 입력 단자(331-2)는, 전환부(212)로부터 공급된 오디오 데이터를, 각각 승산부(332) 및 승산부(333)에 공급한다. 또한, 입력 단자(331-6) 및 입력 단자(331-7)는, 전환부(212)로부터 공급된 오디오 데이터를, 각각 승산부(334) 및 승산부(335)에 공급한다.
승산부(332) 내지 승산부(335)는, 입력 단자(331-1), 입력 단자(331-2), 입력 단자(331-6) 및 입력 단자(331-7)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(336), 가산부(337), 가산부(336) 및 가산부(337)에 공급한다.
가산부(336)는, 승산부(332)로부터 공급된 오디오 데이터와, 승산부(334)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(338-1)에 공급한다. 출력 단자(338-1)는, 가산부(336)로부터 공급된 오디오 데이터를, 다운믹스 후의 L 채널의 오디오 데이터로서 전환부(214)에 공급한다.
가산부(337)는, 승산부(333)로부터 공급된 오디오 데이터와, 승산부(335)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(338-2)에 공급한다. 출력 단자(338-2)는, 가산부(337)로부터 공급된 오디오 데이터를, 다운믹스 후의 R 채널의 오디오 데이터로서 전환부(214)에 공급한다.
입력 단자(331-3) 내지 입력 단자(331-5) 및 입력 단자(331-8)는, 전환부(212)로부터 공급된 오디오 데이터를, 출력 단자(338-3) 내지 출력 단자(338-5) 및 출력 단자(338-6)를 통해 그대로 전환부(214)에 공급한다. 즉, 다운믹스부(213-4)에 공급된 C, Ls, Rs, LFE의 각 채널의 오디오 데이터는, 그대로 다운믹스 후의 C, Ls, Rs, LFE의 각 채널의 오디오 데이터로서 후단에 출력된다.
또한, 이하, 입력 단자(331-1) 내지 입력 단자(331-8)를 특별히 구별할 필요가 없을 경우, 간단히 입력 단자(331)라고도 하고, 출력 단자(338-1) 내지 출력 단자(338-6)를 특별히 구별할 필요가 없을 경우, 간단히 출력 단자(338)라고도 하기로 한다.
이와 같이, 다운믹스부(213-4)에서는, 상술한 식 (5)의 계산에 상당하는 처리가 행하여진다.
계속해서, 도 29의 다운믹스부(217)의 보다 상세한 구성예에 대하여 설명한다.
도 34는, 도 29의 다운믹스부(217-1)의 구성예를 도시하는 도면이다.
다운믹스부(217-1)는, 입력 단자(361-1) 내지 입력 단자(361-6), 승산부(362) 내지 승산부(365), 가산부(366) 내지 가산부(371), 출력 단자(372-1) 및 출력 단자(372-2)로 구성된다.
입력 단자(361-1) 내지 입력 단자(361-6)에는, 각각 전환부(216)로부터, L, R, C, Ls, Rs, LFE의 각 채널의 오디오 데이터가 공급된다.
입력 단자(361-1) 내지 입력 단자(361-6)는, 각각 전환부(216)로부터 공급된 오디오 데이터를, 가산부(366), 가산부(369) 및 승산부(362) 내지 승산부(365)에 공급한다.
승산부(362) 내지 승산부(365)는, 입력 단자(361-3) 내지 입력 단자(361-6)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(366) 및 가산부(369), 가산부(367), 가산부(370), 및 가산부(368) 및 가산부(371)에 공급한다.
가산부(366)는, 입력 단자(361-1)로부터 공급된 오디오 데이터와, 승산부(362)로부터 공급된 오디오 데이터를 가산하여, 가산부(367)에 공급한다. 가산부(367)는, 가산부(366)로부터 공급된 오디오 데이터와, 승산부(363)로부터 공급된 오디오 데이터를 가산하여, 가산부(368)에 공급한다.
가산부(368)는, 가산부(367)로부터 공급된 오디오 데이터와, 승산부(365)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(372-1)에 공급한다. 출력 단자(372-1)는, 가산부(368)로부터 공급된 오디오 데이터를, 다운믹스 후의 L 채널의 오디오 데이터로서 게인 조정부(218)에 공급한다.
가산부(369)는, 입력 단자(361-2)로부터 공급된 오디오 데이터와, 승산부(362)로부터 공급된 오디오 데이터를 가산하여, 가산부(370)에 공급한다. 가산부(370)는, 가산부(369)로부터 공급된 오디오 데이터와, 승산부(364)로부터 공급된 오디오 데이터를 가산하여, 가산부(371)에 공급한다.
가산부(371)는, 가산부(370)로부터 공급된 오디오 데이터와, 승산부(365)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(372-2)에 공급한다. 출력 단자(372-2)는, 가산부(371)로부터 공급된 오디오 데이터를, 다운믹스 후의 R 채널의 오디오 데이터로서 게인 조정부(218)에 공급한다.
또한, 이하, 입력 단자(361-1) 내지 입력 단자(361-6)를 특별히 구별할 필요가 없을 경우, 간단히 입력 단자(361)라고도 하고, 출력 단자(372-1) 및 출력 단자(372-2)를 특별히 구별할 필요가 없을 경우, 간단히 출력 단자(372)라고도 하기로 한다.
이와 같이, 다운믹스부(217-1)에서는, 상술한 식 (1)의 계산에 상당하는 처리가 행하여진다.
또한, 도 35는, 도 29의 다운믹스부(217-2)의 구성예를 도시하는 도면이다.
다운믹스부(217-2)는, 입력 단자(401-1) 내지 입력 단자(401-6), 승산부(402) 내지 승산부(405), 가산부(406), 감산부(407), 감산부(408), 가산부(409) 내지 가산부(413), 출력 단자(414-1) 및 출력 단자(414-2)로 구성된다.
입력 단자(401-1) 내지 입력 단자(401-6)에는, 각각 전환부(216)로부터, L, R, C, Ls, Rs, LFE의 각 채널의 오디오 데이터가 공급된다.
입력 단자(401-1) 내지 입력 단자(401-6)는, 각각 전환부(216)로부터 공급된 오디오 데이터를, 가산부(406), 가산부(410) 및 승산부(402) 내지 승산부(405)에 공급한다.
승산부(402) 내지 승산부(405)는, 입력 단자(401-3) 내지 입력 단자(401-6)로부터 공급된 오디오 데이터에, 다운믹스를 위한 계수를 승산하여, 가산부(406) 및 가산부(410), 감산부(407) 및 가산부(411), 감산부(408) 및 가산부(412), 및 가산부(409) 및 가산부(413)에 공급한다.
가산부(406)는 입력 단자(401-1)로부터 공급된 오디오 데이터와, 승산부(402)로부터 공급된 오디오 데이터를 가산하여, 감산부(407)에 공급한다. 감산부(407)는, 가산부(406)로부터 공급된 오디오 데이터에서, 승산부(403)로부터 공급된 오디오 데이터를 감산하여, 감산부(408)에 공급한다.
감산부(408)는, 감산부(407)로부터 공급된 오디오 데이터에서, 승산부(404)로부터 공급된 오디오 데이터를 감산하여, 가산부(409)에 공급한다. 가산부(409)는, 감산부(408)로부터 공급된 오디오 데이터와, 승산부(405)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(414-1)에 공급한다. 출력 단자(414-1)는, 가산부(409)로부터 공급된 오디오 데이터를, 다운믹스 후의 L 채널의 오디오 데이터로서 게인 조정부(218)에 공급한다.
가산부(410)는 입력 단자(401-2)로부터 공급된 오디오 데이터와, 승산부(402)로부터 공급된 오디오 데이터를 가산하여, 가산부(411)에 공급한다. 가산부(411)는, 가산부(410)로부터 공급된 오디오 데이터와, 승산부(403)로부터 공급된 오디오 데이터를 가산하여, 가산부(412)에 공급한다.
가산부(412)는, 가산부(411)로부터 공급된 오디오 데이터와, 승산부(404)로부터 공급된 오디오 데이터를 가산하여, 가산부(413)에 공급한다. 가산부(413)는, 가산부(412)로부터 공급된 오디오 데이터와, 승산부(405)로부터 공급된 오디오 데이터를 가산하여, 출력 단자(414-2)에 공급한다. 출력 단자(414-2)는, 가산부(413)로부터 공급된 오디오 데이터를, 다운믹스 후의 R 채널의 오디오 데이터로서 게인 조정부(218)에 공급한다.
또한, 이하, 입력 단자(401-1) 내지 입력 단자(401-6)를 특별히 구별할 필요가 없을 경우, 간단히 입력 단자(401)라고도 하고, 출력 단자(414-1) 및 출력 단자(414-2)를 특별히 구별할 필요가 없을 경우, 간단히 출력 단자(414)라고도 하기로 한다.
이와 같이, 다운믹스부(217-2)에서는, 상술한 식 (2)의 계산에 상당하는 처리가 행하여진다.
[복호 처리의 설명]
이어서, 도 36의 흐름도를 참조하여, 복호 장치(141)에 의해 행하여지는 복호 처리에 대하여 설명한다.
스텝 S111에서, 분리부(61)는, 부호화 장치(91)로부터 출력된 부호화 비트 스트림과, 다운믹스 형식 파라미터를 취득한다. 예를 들어, 다운믹스 형식 파라미터는, 복호 장치가 설치되어 있는 정보 처리 장치로부터 취득된다.
또한, 분리부(61)는, 취득한 다운믹스 형식 파라미터를 전환부(151) 및 다운믹스 처리부(152)에 공급함과 함께, 필요에 따라 오디오 데이터의 출력 파일명을 취득하여 적절히 사용한다.
스텝 S112에서, 분리부(61)는, 부호화 비트 스트림을 언패킹하고, 그 결과 얻어진 각 엘리먼트를 복호부(62)에 공급한다.
스텝 S113에서, PCE 복호부(161)는, 분리부(61)로부터 공급된 PCE를 복호한다. 예를 들어 PCE 복호부(161)는, PCE의 코멘트 영역으로부터 확장 영역인 「height_extension_element」를 판독하거나, PCE로부터 스피커 배치에 관한 정보를 판독한다. 여기서, 스피커 배치에 관한 정보로서, 예를 들어 유저의 전방, 측방 및 후방 각각에 배치되는 스피커에서 재생되는 각 채널의 수나, 각 오디오 데이터가 C, L, R 등의 어느 채널의 데이터인지를 나타내는 정보가 판독된다.
스텝 S114에서, DSE 복호부(162)는, 분리부(61)로부터 공급된 DSE를 복호한다. 예를 들어 DSE 복호부(162)는, DSE로부터 「MPEG4 ancillary data」를 판독하거나, 또한 「MPEG4 ancillary data」로부터 필요한 정보를 판독하거나 한다.
구체적으로는, 예를 들어 DSE 복호부(162)의 다운믹스 정보 복호부(174)는, 도 9에 나타낸 「downmixing_levels_MPEG4()」로부터, 다운믹스에 사용하는 계수를 특정하는 정보로서 「center_mix_level_value」나 「surround_mix_level_value」를 판독하여, 다운믹스 처리부(152)에 공급한다.
스텝 S115에서, 오디오 엘리먼트 복호부(163)는, 분리부(61)로부터 공급된 SCE, CPE 및 LFE의 각 엘리먼트에 저장되어 있는 오디오 데이터의 복호를 행한다. 이에 의해, 각 채널의 PCM 데이터가 오디오 데이터로서 얻어진다.
복호된 오디오 데이터의 채널, 즉 수평면상의 배치 위치 등은, 그 오디오 데이터가 저장되어 있던 SCE 등의 엘리먼트나, DSE의 복호에 의해 얻어진 스피커 배치에 관한 정보에 의해 특정할 수 있다. 단, 이 시점에서는, 스피커 배치의 높이에 관한 정보인 스피커 배치 정보가 판독되지 않았으므로, 각 채널의 높이(레이어)에 대해서는 특정되지 않은 상태로 되어 있다.
오디오 엘리먼트 복호부(163)는, 복호에 의해 얻어진 오디오 데이터를 전환부(151)에 공급한다.
스텝 S116에서, 전환부(151)는, 분리부(61)로부터 공급된 다운믹스 형식 파라미터에 기초하여, 오디오 데이터의 다운믹스를 행할 것인지 여부를 판정한다. 예를 들어 다운믹스 형식 파라미터가, 다운믹스를 행하지 않는 것을 나타내고 있을 경우, 다운믹스를 행하지 않는다고 판정된다.
스텝 S116에서, 다운믹스를 행하지 않는다고 판정된 경우, 전환부(151)는, 복호부(62)로부터 공급된 오디오 데이터를 재배열 처리부(181)에 공급하고, 처리는 스텝 S117로 진행한다.
스텝 S117에서, 복호 장치(141)는 재배열 처리를 행하여, 각 오디오 데이터를 스피커 배치에 따라서 재배열하여 출력한다. 그리고, 오디오 데이터가 출력되면, 복호 처리는 종료한다. 또한, 재배열 처리의 상세한 것은 후술한다.
이에 반해, 스텝 S116에서 다운믹스를 행한다고 판정된 경우, 전환부(151)는, 복호부(62)로부터 공급된 오디오 데이터를 다운믹스 처리부(152)의 전환부(211)에 공급하고, 처리는 스텝 S118로 진행한다.
스텝 S118에서, 복호 장치(141)는, 다운믹스 처리를 행하고, 각 오디오 데이터를, 다운믹스 형식 파라미터에 의해 나타나는 채널수의 오디오 데이터에 다운믹스하여 출력한다. 그리고, 오디오 데이터가 출력되면, 복호 처리는 종료한다. 또한, 다운믹스 처리의 상세한 것은 후술한다.
이상과 같이 하여, 복호 장치(141)는, 부호화 비트 스트림을 복호하고, 오디오 데이터를 출력한다.
[재배열 처리의 설명]
계속해서, 도 37 및 도 38의 흐름도를 참조하여, 도 36의 스텝 S117의 처리에 대응하는 재배열 처리에 대하여 설명한다.
스텝 S141에서, 동기 워드 검출부(171)는, PCE의 코멘트 영역(확장 영역)으로부터 동기 워드를 판독하기 위한 파라미터 cmt_byte를, cmt_byte=PCE의 코멘트 영역의 바이트수로 한다. 즉, 파라미터 cmt_byte의 값으로서 코멘트 영역의 바이트수가 세팅된다.
스텝 S142에서, 동기 워드 검출부(171)는, PCE의 코멘트 영역으로부터, 미리 정해진 동기 워드의 데이터량 분만큼 데이터의 판독을 행한다. 예를 들어 도 4의 예에서는, 동기 워드인 「PCE_HEIGHT_EXTENSION_SYNC」는, 8비트, 즉 1바이트이므로, PCE의 코멘트 영역의 선두부터 1바이트분의 데이터가 판독된다.
스텝 S143에서, PCE 복호부(161)는, 스텝 S142에서 판독한 데이터가 동기 워드와 일치했는지 여부를 판정한다. 즉, 판독된 데이터가 동기 워드인지 여부가 판정된다.
스텝 S143에서, 동기 워드와 일치하지 않는다고 판정되었을 경우, 스텝 S144에서, 동기 워드 검출부(171)는, 파라미터 cmt_byte의 값을, 판독한 데이터량 분만큼 감소시킨다. 이 경우, 파라미터 cmt_byte의 값이 1바이트만큼 감소한다.
스텝 S145에서, 동기 워드 검출부(171)는, 파라미터 cmt_byte>0인지 여부를 판정한다. 즉, 파라미터 cmt_byte가 0보다 큰지 여부, 바꾸어 말하면 코멘트 영역의 데이터가 모두 판독된 것인지 여부가 판정된다.
스텝 S145에서 파라미터 cmt_byte>0이라고 판정된 경우, 아직 코멘트 영역으로부터 모든 데이터가 판독되지 않았으므로, 처리는 스텝 S142로 복귀되어, 상술한 처리가 반복된다. 즉, 코멘트 영역의 지금까지 판독된 데이터에 계속되는, 동기 워드의 데이터량 분의 데이터가 판독되어, 동기 워드와의 대조가 행하여진다.
이에 반해, 스텝 S145에서, 파라미터 cmt_byte>0이 아니라고 판정된 경우, 처리는 스텝 S146으로 진행한다. 이렇게 스텝 S146으로 처리가 진행하는 것은, 코멘트 영역의 모든 데이터가 판독되었지만, 코멘트 영역으로부터는 동기 워드가 검출되지 않은 경우이다.
스텝 S146에서, PCE 복호부(161)는, 스피커 배치 정보는 없는 것으로 해서, 그 취지의 정보를 재배열 처리부(181)에 공급하고, 처리는 스텝 S164로 진행한다. 이와 같이, 「height_extension_element」에 있어서, 동기 워드를 스피커 배치 정보의 직전에 배치함으로써, 코멘트 영역에 포함되는 정보가, 스피커 배치 정보인지 여부를 보다 간단하면서도 또한 확실하게 특정할 수 있게 된다.
또한, 스텝 S143에서, 코멘트 영역으로부터 판독한 데이터가 동기 워드와 일치했다고 판정된 경우, 동기 워드가 검출되었으므로, 동기 워드의 직후에 이어지는 스피커 배치 정보를 판독하기 위해, 처리는 스텝 S147로 진행한다.
스텝 S147에서, PCE 복호부(161)는, 유저가 보았을 때 전방에 배치되는 스피커에서 재생되는 오디오 데이터의 스피커 배치 정보를 판독하기 위한 파라미터 num_fr_elem의 값을, 전방에 속하는 엘리먼트수로 한다.
여기서, 전방에 속하는 엘리먼트수란, 유저의 전방에 배치되는 스피커에서 재생되는 오디오 데이터의 수(채널수)이며, 이 엘리먼트수는 PCE에 저장되어 있다. 따라서, 파라미터 num_fr_elem의 값은, 「height_extension_element」로부터 판독되어야 할, 전방에 배치된 스피커에서 재생되는 오디오 데이터의 스피커 배치 정보의 수가 된다.
스텝 S148에서, PCE 복호부(161)는, 파라미터 num_fr_elem>0인지 여부를 판정한다.
스텝 S148에서, 파라미터 num_fr_elem가 0보다 크다고 판정된 경우, 아직 판독해야 할 스피커 배치 정보가 있기 때문에, 처리는 스텝 S149로 진행한다.
스텝 S149에서, PCE 복호부(161)는, 코멘트 영역의 동기 워드에 이어 배치되어 있는, 1 엘리먼트 분의 스피커 배치 정보를 판독한다. 도 4의 예에서는, 1개의 스피커 배치 정보는 2비트로 되어 있으므로, 코멘트 영역의 지금까지 판독된 데이터의 직후에 배치되어 있는 2비트의 데이터가, 1개의 스피커 배치 정보로서 판독된다.
또한, 「height_extension_element」에서의 스피커 배치 정보의 배치 위치나, 오디오 데이터가 SCE 등의 어느 엘리먼트에 저장되어 있는지 등으로, 각 스피커 배치 정보가 어느 오디오 데이터에 관한 정보인지를 특정할 수 있게 되어 있다.
스텝 S150에서, PCE 복호부(161)는, 스피커 배치 정보를 1개 판독했으므로, 파라미터 num_fr_elem의 값을 1 디크리먼트한다. 파라미터 num_fr_elem가 갱신되면, 그 후, 처리는 스텝 S148로 복귀되어, 상술한 처리가 반복된다. 즉, 다음 스피커 배치 정보가 판독된다.
또한, 스텝 S148에서, 파라미터 num_fr_elem>0이 아니라고 판정된 경우, 전방의 엘리먼트의 스피커 배치 정보는 모두 판독되었으므로, 처리는 스텝 S151로 진행한다.
스텝 S151에서, PCE 복호부(161)는, 유저가 보았을 때 측방에 배치되는 스피커에서 재생되는 오디오 데이터의 스피커 배치 정보를 판독하기 위한 파라미터 num_side_elem의 값을, 측방에 속하는 엘리먼트수로 한다.
여기서, 측방에 속하는 엘리먼트수란, 유저 측방에 배치되는 스피커에서 재생되는 오디오 데이터의 수이며, 이 엘리먼트수는 PCE에 저장되어 있다.
스텝 S152에서, PCE 복호부(161)는, 파라미터 num_side_elem>0인지 여부를 판정한다.
스텝 S152에서, 파라미터 num_side_elem가 0보다 크다고 판정된 경우, 스텝 S153에서, PCE 복호부(161)는, 코멘트 영역의 지금까지 판독한 데이터에 이어 배치되어 있는, 1 엘리먼트 분의 스피커 배치 정보를 판독한다. 스텝 S153에서 판독된 스피커 배치 정보는, 유저 측방의 채널의 스피커 배치 정보, 즉 「side_element_height_info[i]」이다.
스텝 S154에서, PCE 복호부(161)는, 파라미터 num_side_elem의 값을 1 디크리먼트한다. 파라미터 num_side_elem가 갱신되면, 그 후, 처리는 스텝 S152로 복귀되어, 상술한 처리가 반복된다.
또한, 스텝 S152에서, 파라미터 num_side_elem>0이 아니라고 판정된 경우, 측방의 엘리먼트의 스피커 배치 정보는 모두 판독되었으므로, 처리는 스텝 S155로 진행한다.
스텝 S155에서, PCE 복호부(161)는, 유저가 보았을 때 후방에 배치되는 스피커에서 재생되는 오디오 데이터의 스피커 배치 정보를 판독하기 위한 파라미터 num_back_elem의 값을, 후방에 속하는 엘리먼트수로 한다.
여기서, 후방에 속하는 엘리먼트수란, 유저 후방에 배치되는 스피커에서 재생되는 오디오 데이터의 수이며, 이 엘리먼트수는 PCE에 저장되어 있다.
스텝 S156에서, PCE 복호부(161)는, 파라미터 num_back_elem>0인지 여부를 판정한다.
스텝 S156에서, 파라미터 num_back_elem가 0보다 크다고 판정된 경우, 스텝 S157에서, PCE 복호부(161)는, 코멘트 영역의 지금까지 판독한 데이터에 이어 배치되어 있는, 1 엘리먼트 분의 스피커 배치 정보를 판독한다. 스텝 S157에서 판독된 스피커 배치 정보는, 유저 후방의 채널의 스피커 배치 정보, 즉 「back_element_height_info[i]」이다.
스텝 S158에서, PCE 복호부(161)는, 파라미터 num_back_elem의 값을 1 디크리먼트한다. 파라미터 num_back_elem가 갱신되면, 그 후, 처리는 스텝 S156으로 복귀되어, 상술한 처리가 반복된다.
또한, 스텝 S156에서, 파라미터 num_back_elem>0이 아니라고 판정된 경우, 후방의 엘리먼트의 스피커 배치 정보는 모두 판독되었으므로, 처리는 스텝 S159로 진행한다.
스텝 S159에서, 식별 정보 산출부(172)는 바이트 얼라인먼트를 행한다.
예를 들어, 도 4의 「height_extension_element」에서는, 스피커 배치 정보에 이어, 바이트 얼라인먼트의 실행을 지시하는 정보 「byte_alignment()」가 저장되어 있으므로, 식별 정보 산출부(172)는, 이 정보를 판독하면, 바이트 얼라인먼트를 실행한다.
구체적으로는, 식별 정보 산출부(172)는, 「height_extension_element」에서의 「PCE_HEIGHT_EXTENSION_SYNC」부터 「byte_alignment()」의 직전까지의 사이에 읽혀진 정보의 데이터량이, 8비트의 정수배의 데이터량이 되도록, 그들 정보의 직후에 소정의 데이터를 부가한다. 즉, 판독된 동기 워드, 스피커 배치 정보 및 부가된 데이터의 합계의 데이터량이 8비트의 정수배가 되도록, 바이트 얼라인먼트가 행하여진다.
이 예에서는, 오디오 데이터의 채널수, 즉 부호화 비트 스트림에 포함되는 스피커 배치 정보의 수는, 미리 정해진 소정 범위 내의 수가 된다. 그로 인해, 바이트 얼라인먼트에 의해 얻어진 데이터, 즉 동기 워드, 스피커 배치 정보 및 부가 된 데이터를 포함하는 1개의 데이터(이하, 얼라인먼트 데이터라고도 함)가 반드시 소정의 데이터량의 데이터가 되도록 이루어져 있다.
바꾸어 말하면, 얼라인먼트 데이터의 데이터량이, 「height_extension_element」에 포함되어 있는 스피커 배치 정보의 수, 즉 오디오 데이터의 채널수에 좌우되지 않고, 반드시 소정의 데이터량이 되도록 되어 있다. 그로 인해, PCE 복호부(161)는, 얼라인먼트 데이터가 생성된 시점에서, 얼라인먼트 데이터가 소정의 데이터량이 되지 않았을 경우에는, 지금까지 판독한 스피커 배치 정보는, 올바른 스피커 배치 정보가 아닌, 즉 무효인 것으로 한다.
스텝 S160에서, 식별 정보 산출부(172)는, 「height_extension_element」에 있어서, 스텝 S159에서 판독한 「byte_alignment()」에 계속되는 식별 정보, 즉 「height_info_crc_check」에 저장되어 있는 정보를 판독한다. 여기에서는, 예를 들어 식별 정보로서 CRC 체크 코드가 판독된다.
스텝 S161에서, 식별 정보 산출부(172)는, 스텝 S159에서 구한 얼라인먼트 데이터에 기초하여 식별 정보를 산출한다. 예를 들어, 식별 정보로서 CRC 체크 코드가 산출된다.
스텝 S162에서, PCE 복호부(161)는, 스텝 S160에서 판독한 식별 정보와, 스텝 S161에서 산출한 식별 정보가 일치하는지 여부를 판정한다.
또한, PCE 복호부(161)는, 얼라인먼트 데이터가 소정의 데이터량이 되지 않은 경우에는, 스텝 S160 및 스텝 S161의 처리를 행하지 않고, 스텝 S162에서, 식별 정보가 일치하지 않는다고 판정한다.
스텝 S162에서, 식별 정보가 일치하지 않는다고 판정되었을 경우, 스텝 S163에서, PCE 복호부(161)는, 판독한 스피커 배치 정보를 무효로 하고, 그 취지의 정보를 재배열 처리부(181) 및 다운믹스 처리부(152)에 공급한다. 그리고, 그 후, 처리는 스텝 S164로 진행한다.
스텝 S163의 처리가 행하여지거나 또는 스텝 S146의 처리가 행하여지면, 스텝 S164에서, 재배열 처리부(181)는 미리 정한 스피커 배치로, 전환부(151)로부터 공급된 오디오 데이터를 출력한다.
이때, 예를 들어 재배열 처리부(181)는, PCE 복호부(161)로부터 공급된, PCE로부터 판독된 스피커 배치에 관한 정보 등에 기초하여, 각 오디오 데이터의 스피커 배치를 정한다. 또한, 스피커 배치를 정할 때에 재배열 처리부(181)가 이용하는 정보의 참조처는, 오디오 데이터를 이용하는 서비스나 어플리케이션에 의존하고, 오디오 데이터의 채널수 등에 따라서 사전에 정해져 있는 것으로 한다.
스텝 S164의 처리가 행하여지면, 재배열 처리는 종료하고, 이에 의해 도 36의 스텝 S117의 처리도 종료하므로, 복호 처리는 종료한다.
한편, 스텝 S162에서, 식별 정보가 일치했다고 판정된 경우, 스텝 S165에서, PCE 복호부(161)는, 판독한 스피커 배치 정보를 유효한 것으로 해서, 스피커 배치 정보를 재배열 처리부(181) 및 다운믹스 처리부(152)에 공급한다. 또한, 이때, PCE 복호부(161)는, PCE로부터 판독된 스피커 배치에 관한 정보도 재배열 처리부(181) 및 다운믹스 처리부(152)에 공급한다.
스텝 S166에서, 재배열 처리부(181)는, PCE 복호부(161)로부터 공급된 스피커 배치 정보 등으로부터 정해지는 스피커 배치로, 전환부(151)로부터 공급된 오디오 데이터를 출력한다. 즉, 각 채널의 오디오 데이터가, 스피커 배치 정보 등에 의해 정해지는 순서대로 재배열되어, 후단에 출력된다. 스텝 S166의 처리가 행하여지면, 재배열 처리는 종료되고, 이에 의해 도 36의 스텝 S117의 처리도 종료되므로, 복호 처리는 종료된다.
이상과 같이 하여, 복호 장치(141)는, PCE의 코멘트 영역으로부터 동기 워드나 CRC 체크 코드의 대조를 행하여 스피커 배치 정보를 판독하고, 스피커 배치 정보에 따른 배치로, 복호된 오디오 데이터를 출력한다.
이와 같이, 스피커 배치 정보를 판독하여 스피커 배치(음원 위치)를 정함으로써, 수직 방향의 음상 재현이 가능하게 되어, 보다 현장감이 있는 고품질의 음성을 얻을 수 있다.
또한, 동기 워드와 CRC 체크 코드를 사용하여 스피커 배치 정보를 판독함으로써, 다른 텍스트 정보 등이 저장되어 있을 가능성이 있는 코멘트 영역으로부터, 보다 확실하게 스피커 배치 정보를 판독할 수 있다. 즉, 스피커 배치 정보와 그 밖의 정보를 보다 확실하게 식별할 수 있다.
특히, 복호 장치(141)에서는, 동기 워드의 일치, CRC 체크 코드의 일치 및 얼라인먼트 데이터의 데이터량의 일치라는 3개의 요소에 의해 스피커 배치 정보와 다른 정보의 식별이 행하여지므로, 스피커 배치 정보의 오검출을 억제할 수 있다. 이렇게 스피커 배치 정보의 오검출을 억제함으로써, 올바른 스피커 배치로 오디오 데이터를 재생할 수 있게 되어, 보다 현장감이 있는 고품질의 음성을 얻을 수 있다.
[다운믹스 처리의 설명]
또한, 도 39의 흐름도를 참조하여, 도 36의 스텝 S118의 처리에 대응하는 다운믹스 처리에 대하여 설명한다. 이 경우, 전환부(151)로부터 다운믹스 처리부(152)의 전환부(211)에 각 채널의 오디오 데이터가 공급된다.
스텝 S191에서, DSE 복호부(162)의 확장 검출부(173)는, DSE의 「MPEG4_ancillary_data()」 내에 있는 「ancillary_data_status()」로부터 「ancillary_data_extension_status」를 판독한다.
스텝 S192에서, 확장 검출부(173)는 판독한 「ancillary_data_extension_status」가 1인지 여부를 판정한다.
스텝 S192에서, 「ancillary_data_extension_status」가 1이 아닐 경우, 즉 0이라고 판정된 경우, 스텝 S193에서, 다운믹스 처리부(152)는 미리 정해진 방법에 의해 오디오 데이터의 다운믹스를 행한다.
예를 들어 다운믹스 처리부(152)는, 다운믹스 정보 복호부(174)로부터 공급된 「center_mix_level_value」나 「surround_mix_level_value」에 의해 정해지는 계수를 사용하여, 전환부(151)로부터의 오디오 데이터를 다운믹스하여, 출력부(63)에 공급한다.
또한, 「ancillary_data_extension_status」가 0일 경우, 어떻게 하여 다운믹스 처리가 행하여지도록 해도 된다.
스텝 S194에서, 출력부(63)는, 다운믹스 처리부(152)로부터 공급된 오디오 데이터를 그대로 후단에 출력하고, 다운믹스 처리는 종료한다. 이에 의해, 도 36의 스텝 S118의 처리가 종료되므로, 복호 처리도 종료된다.
이에 반해, 스텝 S192에서, 「ancillary_data_extension_status」가 1이라고 판정된 경우, 처리는 스텝 S195로 진행한다.
스텝 S195에서, 다운믹스 정보 복호부(174)는, 도 11에 도시한 「MPEG4_ext_ancillary_data()」의 「ext_downmixing_levels()」 내의 정보를 판독하여, 다운믹스 처리부(152)에 공급한다. 이에 의해, 예를 들어 도 13의 「dmix_a_idx」 및 「dmix_b_idx」가 판독된다.
또한, 「MPEG4_ext_ancillary_data()」에 포함되어 있는, 도 12에 나타낸 「ext_downmixing_levels_status」가 0일 경우에는, 「dmix_a_idx」 및 「dmix_b_idx」의 판독은 행하여지지 않는다.
스텝 S196에서, 다운믹스 정보 복호부(174)는, 「MPEG4_ext_ancillary_data()」의 「ext_downmixing_global_gains()」 내의 정보를 판독하여, 다운믹스 처리부(152)에 공급한다. 이에 의해, 예를 들어 도 15에 도시한 정보, 즉 「dmx_gain_5_sign」, 「dmx_gain_5_idx」, 「dmx_gain_2_sign」 및 「dmx_gain_2_idx」가 판독된다.
또한, 이들 정보의 판독은, 「MPEG4_ext_ancillary_data()」에 포함되어 있는, 도 12에 나타낸 「ext_downmixing_global_gains_status」가 0일 경우에는 행하여지지 않는다.
스텝 S197에서, 다운믹스 정보 복호부(174)는, 「MPEG4_ext_ancillary_data()」의 「ext_downmixing_lfe_level()」 내의 정보를 판독하여, 다운믹스 처리부(152)에 공급한다. 이에 의해, 예를 들어 도 16에 나타낸 「dmix_lfe_idx」가 판독된다.
또한, 보다 상세하게는, 다운믹스 정보 복호부(174)는, 도 12에 나타낸 「ext_downmixing_lfe_level_status」를 판독하고, 「ext_downmixing_lfe_level_status」의 값에 따라서 「dmix_lfe_idx」의 판독을 행한다.
즉, 「dmix_lfe_idx」의 판독은, 「MPEG4_ext_ancillary_data()」에 포함되어 있는, 「ext_downmixing_lfe_level_status」가 0일 경우에는 행하여지지 않는다. 이 경우, 이하에서 설명하는 오디오 데이터의 5.1 채널에서 2 채널로의 다운믹스에 있어서, LFE 채널의 오디오 데이터는 사용되지 않는다. 즉, LFE 채널의 오디오 데이터에 승산되는 계수는 0이 된다.
스텝 S198에서, 다운믹스 정보 복호부(174)는, 도 7에 나타낸 「MPEG4 ancillary data」의 「bs_info()」로부터, 「pseudo_surround_enable」 내에 저장되어 있는 정보를 판독하여 다운믹스 처리부(152)에 공급한다.
스텝 S199에서, 다운믹스 처리부(152)는, 분리부(61)로부터 공급된 다운믹스 형식 파라미터에 기초하여, 오디오 데이터는 2 채널의 출력인지 여부를 판정한다.
예를 들어, 다운믹스 형식 파라미터가, 7.1 채널 또는 6.1 채널에서 2 채널로의 다운믹스 또는 5.1 채널에서 2 채널로의 다운믹스를 행하는 것을 나타내고 있을 경우, 2 채널의 출력이라고 판정된다.
스텝 S199에서, 2 채널의 출력이라고 판정된 경우, 처리는 스텝 S200으로 진행한다. 이 경우, 전환부(214)의 출력처는, 전환부(216)로 전환된다.
스텝 S200에서, 다운믹스 처리부(152)는, 분리부(61)로부터의 다운믹스 형식 파라미터에 기초하여, 오디오 데이터의 입력은 5.1 채널인지 여부를 판정한다. 예를 들어, 다운믹스 형식 파라미터가, 5.1 채널에서 2 채널로의 다운믹스를 행하는 것을 나타내고 있을 경우, 입력은 5.1 채널이라고 판정된다.
스텝 S200에서, 입력은 5.1 채널이 아니라고 판정된 경우, 처리는 스텝 S201로 진행하고, 7.1 채널 또는 6.1 채널에서 2 채널로의 다운믹스가 행하여진다.
이 경우, 전환부(211)는, 전환부(151)로부터 공급된 오디오 데이터를 전환부(212)에 공급한다. 또한, 전환부(212)는, PCE 복호부(161)로부터 공급된 스피커 배치에 관한 정보에 기초하여, 전환부(211)로부터 공급된 오디오 데이터를, 다운믹스부(213-1) 내지 다운믹스부(213-4) 중 어느 하나에 공급한다. 예를 들어, 오디오 데이터가 6.1 채널의 데이터일 경우에는, 각 채널의 오디오 데이터는, 다운믹스부(213-1)에 공급된다.
스텝 S201에서, 다운믹스부(213)는, 다운믹스 정보 복호부(174)로부터 공급된, 「ext_downmixing_levels()」로부터 판독된 「dmix_a_idx」 및 「dmix_b_idx」에 기초하여, 5.1 채널로의 다운믹스 처리를 행한다.
예를 들어, 오디오 데이터가 다운믹스부(213-1)에 공급된 경우, 다운믹스부(213-1)는, 도 19에 나타낸 테이블을 참조하여, 「dmix_a_idx」 및 「dmix_b_idx」의 값에 대하여 정해지는 상수를, 각각 상수 g1 및 g2라 한다. 그리고, 다운믹스부(213-1)는, 상수 g1 및 g2를, 각각 승산부(242)와 승산부(243) 및 승산부(244)에서 사용되는 계수로 함으로써, 식 (6)의 연산을 행하여, 5.1 채널의 오디오 데이터를 생성하고, 전환부(214)에 공급한다.
마찬가지로, 오디오 데이터가 다운믹스부(213-2)에 공급된 경우, 다운믹스부(213-2)는, 「dmix_a_idx」 및 「dmix_b_idx」의 값에 대하여 정해지는 상수를, 각각 상수 e1 및 e2라 한다. 그리고, 다운믹스부(213-2)는, 상수 e1 및 e2를, 각각 승산부(273)와 승산부(274) 및 승산부(272)와 승산부(275)에서 사용되는 계수로 함으로써 식 (4)의 연산을 행하여, 얻어진 5.1 채널의 오디오 데이터를 전환부(214)에 공급한다.
또한, 오디오 데이터가 다운믹스부(213-3)에 공급된 경우, 다운믹스부(213-3)는, 「dmix_a_idx」 및 「dmix_b_idx」의 값에 대하여 정해지는 상수를, 각각 상수 d1 및 d2라 한다. 그리고, 다운믹스부(213-3)는, 상수 d1 및 d2를, 각각 승산부(302)와 승산부(303) 및 승산부(304)와 승산부(305)에서 사용되는 계수로 함으로써 식 (3)의 연산을 행하여, 얻어진 오디오 데이터를 전환부(214)에 공급한다.
또한, 오디오 데이터가 다운믹스부(213-4)에 공급된 경우, 다운믹스부(213-4)는, 「dmix_a_idx」 및 「dmix_b_idx」의 값에 대하여 정해지는 상수를, 각각 상수 f1 및 f2라 한다. 그리고, 다운믹스부(213-4)는 상수 f1 및 f2를, 각각 승산부(332)와 승산부(333) 및 승산부(334)와 승산부(335)에서 사용되는 계수로 함으로써 식 (5)의 연산을 행하여, 얻어진 오디오 데이터를 전환부(214)에 공급한다.
5.1 채널의 오디오 데이터가 전환부(214)에 공급되면, 전환부(214)는, 다운믹스부(213)로부터의 오디오 데이터를 전환부(216)에 공급한다. 또한, 전환부(216)는, 다운믹스 정보 복호부(174)로부터 공급된 「pseudo_surround_enable」의 값에 따라, 전환부(214)로부터의 오디오 데이터를, 다운믹스부(217-1) 또는 다운믹스부(217-2)에 공급한다.
예를 들어, 「pseudo_surround_enable」의 값이 0일 경우, 오디오 데이터는 다운믹스부(217-1)에 공급되고, 「pseudo_surround_enable」의 값이 1일 경우, 오디오 데이터는 다운믹스부(217-2)에 공급된다.
스텝 S202에서, 다운믹스부(217)는, 다운믹스 정보 복호부(174)로부터 공급된 다운믹스에 관한 정보에 기초하여, 전환부(216)로부터 공급된 오디오 데이터의 2 채널로의 다운믹스 처리를 행한다. 즉, 「downmixing_levels_MPEG4()」 내의 정보와, 「ext_downmixing_lfe_level()」 내의 정보에 기초하여, 2 채널로의 다운믹스 처리가 행하여진다.
예를 들어, 오디오 데이터가 다운믹스부(217-1)에 공급된 경우, 다운믹스부(217-1)는, 도 19의 테이블을 참조하여, 「center_mix_level_value」 및 「surround_mix_level_value」의 값에 대하여 정해지는 상수를, 각각 상수 a 및 b라 한다. 또한, 다운믹스부(217-1)는, 도 18에 나타낸 테이블을 참조하여, 「dmix_lfe_idx」의 값에 대하여 정해지는 상수를 상수 c라 한다.
그리고 다운믹스부(217-1)는, 상수 a, b 및 c를 승산부(363)와 승산부(364), 승산부(362) 및 승산부(365)에서 사용되는 계수로 함으로써, 식 (1)의 연산을 행하여, 얻어진 2 채널의 오디오 데이터를 게인 조정부(218)에 공급한다.
또한, 오디오 데이터가 다운믹스부(217-2)에 공급된 경우, 다운믹스부(217-2)는, 다운믹스부(217-1)에서의 경우와 마찬가지로 하여 상수 a, b 및 c를 정한다. 그리고 다운믹스부(217-2)는, 상수 a, b 및 c를 승산부(403)와 승산부(404), 승산부(402) 및 승산부(405)에서 사용되는 계수로 함으로써, 식 (2)의 연산을 행하여, 얻어진 오디오 데이터를 게인 조정부(218)에 공급한다.
스텝 S203에서, 게인 조정부(218)는, 다운믹스 정보 복호부(174)로부터 공급된, 「ext_downmixing_global_gains()」으로부터 판독된 정보에 기초하여, 다운믹스부(217)로부터의 오디오 데이터의 게인 조정을 행한다.
구체적으로는, 게인 조정부(218)는, 「ext_downmixing_global_gains()」으로부터 판독된 「dmx_gain_5_sign」, 「dmx_gain_5_idx」, 「dmx_gain_2_sign」 및 「dmx_gain_2_idx」에 기초하여 식 (11)을 계산하여, 게인값 dmx_gain_7to2를 산출한다. 그리고, 게인 조정부(218)는, 각 채널의 오디오 데이터에 게인값 dmx_gain_7to2를 승산하여, 출력부(63)에 공급한다.
스텝 S204에서, 출력부(63)는, 게인 조정부(218)로부터 공급된 오디오 데이터를 그대로 후단에 출력하고, 다운믹스 처리는 종료한다. 이에 의해, 도 36의 스텝 S118의 처리가 종료되므로, 복호 처리도 종료된다.
또한, 출력부(63)로부터 오디오 데이터가 출력되는 경우에는, 재배열 처리부(181)로부터 오디오 데이터가 출력되는 경우와, 다운믹스 처리부(152)로부터의 오디오 데이터가 그대로 출력되는 경우가 있다. 출력부(63)의 후단에서는, 이들 오디오 데이터의 2가지의 출력 중 어느 것을 사용할지를 미리 정해 둘 수 있다.
또한, 스텝 S200에서, 입력이 5.1 채널이라고 판정된 경우, 처리는 스텝 S205로 진행하고, 5.1 채널에서 2 채널로의 다운믹스가 행하여진다.
이 경우, 전환부(211)는, 전환부(151)로부터 공급된 오디오 데이터를 전환부(216)에 공급한다. 또한, 전환부(216)는, 다운믹스 정보 복호부(174)로부터 공급된 「pseudo_surround_enable」의 값에 따라, 전환부(211)로부터의 오디오 데이터를, 다운믹스부(217-1) 또는 다운믹스부(217-2)에 공급한다.
스텝 S205에서, 다운믹스부(217)는, 다운믹스 정보 복호부(174)로부터 공급된 다운믹스에 관한 정보에 기초하여, 전환부(216)로부터 공급된 오디오 데이터의 2 채널로의 다운믹스 처리를 행한다. 또한, 스텝 S205에서는, 스텝 S202와 마찬가지의 처리가 행하여진다.
스텝 S206에서, 게인 조정부(218)는, 다운믹스 정보 복호부(174)로부터 공급된, 「ext_downmixing_global_gains()」으로부터 판독된 정보에 기초하여, 다운믹스부(217)로부터의 오디오 데이터의 게인 조정을 행한다.
구체적으로는, 게인 조정부(218)는, 「ext_downmixing_global_gains()」으로부터 판독된 「dmx_gain_2_sign」 및 「dmx_gain_2_idx」에 기초하여 식 (9)를 계산하고, 그 결과 얻어진 오디오 데이터를 출력부(63)에 공급한다.
스텝 S207에서, 출력부(63)는, 게인 조정부(218)로부터 공급된 오디오 데이터를 그대로 후단에 출력하고, 다운믹스 처리는 종료한다. 이에 의해, 도 36의 스텝 S118의 처리가 종료되므로, 복호 처리도 종료된다.
또한, 스텝 S199에서, 2 채널의 출력이 아닌, 즉 5.1 채널의 출력이라고 판정된 경우, 처리는 스텝 S208로 진행하고, 7.1 채널 또는 6.1 채널로부터 5.1 채널로의 다운믹스가 행하여진다.
이 경우, 전환부(211)는, 전환부(151)로부터 공급된 오디오 데이터를 전환부(212)에 공급한다. 또한, 전환부(212)는, PCE 복호부(161)로부터 공급된 스피커 배치에 관한 정보에 기초하여, 전환부(211)로부터 공급된 오디오 데이터를, 다운믹스부(213-1) 내지 다운믹스부(213-4) 중 어느 하나에 공급한다. 또한, 전환부(214)의 출력처는, 게인 조정부(215)가 된다.
스텝 S208에서, 다운믹스부(213)는, 다운믹스 정보 복호부(174)로부터 공급된, 「ext_downmixing_levels()」로부터 판독된 「dmix_a_idx」 및 「dmix_b_idx」에 기초하여, 5.1 채널로의 다운믹스 처리를 행한다. 또한, 스텝 S208에서는, 스텝 S201과 마찬가지의 처리가 행하여진다.
5.1 채널로의 다운믹스 처리가 행하여져서, 오디오 데이터가 다운믹스부(213)로부터 전환부(214)에 공급되면, 전환부(214)는, 공급된 오디오 데이터를 게인 조정부(215)에 공급한다.
스텝 S209에서, 게인 조정부(215)는, 다운믹스 정보 복호부(174)로부터 공급된, 「ext_downmixing_global_gains()」으로부터 판독된 정보에 기초하여, 전환부(214)로부터의 오디오 데이터의 게인 조정을 행한다.
구체적으로는, 게인 조정부(215)는, 「ext_downmixing_global_gains()」으로부터 판독된 「dmx_gain_5_sign」 및 「dmx_gain_5_idx」에 기초하여 식 (7)을 계산하고, 그 결과 얻어진 오디오 데이터를 출력부(63)에 공급한다.
스텝 S210에서, 출력부(63)는, 게인 조정부(215)로부터 공급된 오디오 데이터를 그대로 후단에 출력하고, 다운믹스 처리는 종료한다. 이에 의해, 도 36의 스텝 S118의 처리가 종료되므로, 복호 처리도 종료된다.
이상과 같이 하여, 복호 장치(141)는, 부호화 비트 스트림으로부터 판독한 정보에 기초하여, 오디오 데이터의 다운믹스를 행한다.
예를 들어, 부호화 비트 스트림에서는, DSE에 「pseudo_surround_enable」이 포함되어 있으므로, 복수의 방법 중, 오디오 데이터에 최적인 방법으로 5.1 채널에서 2 채널로의 다운믹스 처리를 행할 수 있다. 이에 의해, 복호측에 있어서, 보다 현장감이 있는 고품질의 음성을 얻을 수 있게 된다.
또한, 부호화 비트 스트림에는, 확장 정보가 포함되어 있는지를 나타내는 정보가 「ancillary_data_extension_status」에 저장되어 있다. 따라서, 이 정보를 참조하면, 확장 영역에 확장 정보가 포함되어 있는지를 특정할 수 있다. 이러한 확장 정보를 얻을 수 있으면, 보다 높은 자유도로 오디오 데이터를 다운믹스할 수 있으므로, 보다 현장감이 있는 고품질의 음성을 얻을 수 있다.
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 40은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는, 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는, 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드 디스크나 불휘발성의 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 미디어(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해 RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 미디어(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 근거리 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 미디어(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 외, 프로그램은, ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 또는 호출이 행해졌을 때 등의 필요한 타이밍에서 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.
예를 들어, 본 기술은, 1개의 기능을 네트워크를 통해 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 1개의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 1개의 스텝에 복수의 처리가 포함되는 경우에는, 그 1개의 스텝에 포함되는 복수의 처리는, 1개의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.
[1] 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하는 복호부와,
상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하는 판독부와,
상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는 처리부를 구비하는 복호 장치.
[2] 상기 확장 정보는, 다운믹스에 관한 정보이며,
상기 처리부는, 상기 확장 정보에 기초하여, 복호된 복수 채널의 상기 오디오 데이터를 다운믹스하는, [1]에 기재된 복호 장치.
[3] 상기 처리부는, 상기 확장 정보에 기초하여 다운믹스된 상기 오디오 데이터를, 상기 부호화 비트 스트림에 포함되는 상기 확장 정보와는 상이한 정보에 기초하여 다시 다운믹스하는, [2]에 기재된 복호 장치.
[4] 상기 확장 정보는, 상기 오디오 데이터의 다운믹스에 사용하는 계수를 얻기 위한 정보인, [2] 또는 [3]에 기재된 복호 장치.
[5] 상기 확장 정보는, 다운믹스된 상기 오디오 데이터의 게인 조정에 사용하는 게인값을 얻기 위한 정보이며,
상기 처리부는, 상기 게인값에 기초하여, 다운믹스된 상기 오디오 데이터의 게인 조정을 행하는, [2] 내지 [4] 중 어느 하나에 기재된 복호 장치.
[6] 상기 확장 정보는, 특정 채널의 상기 오디오 데이터를 다운믹스에 사용할 것인지 여부를 나타내는 정보인, [2] 내지 [5] 중 어느 하나에 기재된 복호 장치.
[7] 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하고,
상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하고,
상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는, 스텝을 포함하는 복호 방법.
[8] 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하고,
상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하고,
상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는, 스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.
[9] 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하는 부호화부와,
부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는 패킹부를 구비하는 부호화 장치.
[10] 상기 확장 정보는, 다운믹스에 관한 정보이며, 상기 확장 정보에 기초하여, 복호된 복수 채널의 상기 오디오 데이터가 다운믹스되는, [9]에 기재된 부호화 장치.
[11] 상기 확장 정보에 기초하여 다운믹스된 상기 오디오 데이터가, 상기 부호화 비트 스트림에 포함되는 상기 확장 정보와는 상이한 정보에 기초하여 다시 다운믹스되는, [10]에 기재된 부호화 장치.
[12] 상기 확장 정보는, 상기 오디오 데이터의 다운믹스에 사용하는 계수를 얻기 위한 정보인, [10] 또는 [11]에 기재된 부호화 장치.
[13] 상기 확장 정보는, 다운믹스된 상기 오디오 데이터의 게인 조정에 사용하는 게인값을 얻기 위한 정보이며, 상기 게인값에 기초하여, 다운믹스된 상기 오디오 데이터의 게인 조정이 행하여지는, [10] 내지 [12] 중 어느 하나에 기재된 부호화 장치.
[14] 상기 확장 정보는, 특정 채널의 상기 오디오 데이터를 다운믹스에 사용할 것인지 여부를 나타내는 정보인, [10] 내지 [13] 중 어느 하나에 기재된 부호화 장치.
[15] 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하고,
부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는, 스텝을 포함하는 부호화 방법.
[16] 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하고,
부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는, 스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.
11 : 부호화 장치 21 : 입력부
22 : 부호화부 23 : 패킹부
51 : 복호 장치 61 : 분리부
62 : 복호부 63 : 출력부
91 : 부호화 장치 101 : PCE 부호화부
102 : DSE 부호화부 103 : 오디오 엘리먼트 부호화부
111 : 동기 워드 부호화부 112 : 배치 정보 부호화부
113 : 식별 정보 부호화부 114 : 확장 정보 부호화부
115 : 다운믹스 정보 부호화부 141 : 복호 장치
152 : 다운믹스 처리부 161 : PCE 복호부
162 : DSE 복호부 163 : 오디오 엘리먼트 복호부
171 : 동기 워드 검출부 172 : 식별 정보 산출부
173 : 확장 검출부 174 : 다운믹스 정보 복호부
181 : 재배열 처리부

Claims (16)

  1. 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하는 복호부와,
    상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하는 판독부와,
    상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는 처리부
    를 포함하는, 복호 장치.
  2. 제1항에 있어서,
    상기 확장 정보는, 다운믹스에 관한 정보이며,
    상기 처리부는, 상기 확장 정보에 기초하여, 복호된 복수 채널의 상기 오디오 데이터를 다운믹스하는, 복호 장치.
  3. 제2항에 있어서,
    상기 처리부는, 상기 확장 정보에 기초하여 다운믹스된 상기 오디오 데이터를, 상기 부호화 비트 스트림에 포함되는 상기 확장 정보와는 상이한 정보에 기초하여 다시 다운믹스하는, 복호 장치.
  4. 제3항에 있어서,
    상기 확장 정보는, 상기 오디오 데이터의 다운믹스에 사용하는 계수를 얻기 위한 정보인, 복호 장치.
  5. 제4항에 있어서,
    상기 확장 정보는, 다운믹스된 상기 오디오 데이터의 게인 조정에 사용하는 게인값을 얻기 위한 정보이며,
    상기 처리부는, 상기 게인값에 기초하여, 다운믹스된 상기 오디오 데이터의 게인 조정을 행하는, 복호 장치.
  6. 제5항에 있어서,
    상기 확장 정보는, 특정 채널의 상기 오디오 데이터를 다운믹스에 사용할 것인지 여부를 나타내는 정보인, 복호 장치.
  7. 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하는 스텝,
    상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하는 스텝, 및
    상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는 스텝
    을 포함하는, 복호 방법.
  8. 부호화 비트 스트림에 포함되어 있는 오디오 데이터를 복호하는 스텝,
    상기 부호화 비트 스트림에 포함되는 확장 정보의 유무를 나타내는 정보를, 상기 부호화 비트 스트림으로부터 판독함과 함께, 판독한 상기 정보에 따라서 상기 확장 정보를 판독하는 스텝, 및
    상기 확장 정보에 기초하여, 복호된 상기 오디오 데이터에 대한 처리를 실행하는 스텝
    을 포함하는 처리를 컴퓨터에 실행시키는, 프로그램.
  9. 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하는 부호화부와,
    부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는 패킹부
    를 포함하는, 부호화 장치.
  10. 제9항에 있어서,
    상기 확장 정보는, 다운믹스에 관한 정보이며, 상기 확장 정보에 기초하여, 복호된 복수 채널의 상기 오디오 데이터가 다운믹스되는, 부호화 장치.
  11. 제10항에 있어서,
    상기 확장 정보에 기초하여 다운믹스된 상기 오디오 데이터가, 상기 부호화 비트 스트림에 포함되는 상기 확장 정보와는 상이한 정보에 기초하여 다시 다운믹스되는, 부호화 장치.
  12. 제11항에 있어서,
    상기 확장 정보는, 상기 오디오 데이터의 다운믹스에 사용하는 계수를 얻기 위한 정보인, 부호화 장치.
  13. 제12항에 있어서,
    상기 확장 정보는, 다운믹스된 상기 오디오 데이터의 게인 조정에 사용하는 게인값을 얻기 위한 정보이며, 상기 게인값에 기초하여, 다운믹스된 상기 오디오 데이터의 게인 조정이 행하여지는, 부호화 장치.
  14. 제13항에 있어서,
    상기 확장 정보는, 특정 채널의 상기 오디오 데이터를 다운믹스에 사용할 것인지 여부를 나타내는 정보인, 부호화 장치.
  15. 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하는 스텝과,
    부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는 스텝
    을 포함하는, 부호화 방법.
  16. 오디오 데이터, 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 부호화하는 스텝과,
    부호화된 상기 오디오 데이터, 상기 확장 정보의 유무를 나타내는 정보 및 상기 확장 정보를 소정의 영역에 저장하여 부호화 비트 스트림을 생성하는 스텝
    을 포함하는 처리를 컴퓨터에 실행시키는, 프로그램.
KR1020147004085A 2012-07-02 2013-06-24 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램 KR20150032650A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JPJP-P-2012-148918 2012-07-02
JP2012148918 2012-07-02
JPJP-P-2012-255465 2012-11-21
JP2012255465 2012-11-21
PCT/JP2013/067233 WO2014007097A1 (ja) 2012-07-02 2013-06-24 復号装置および方法、符号化装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
KR20150032650A true KR20150032650A (ko) 2015-03-27

Family

ID=49881855

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147004085A KR20150032650A (ko) 2012-07-02 2013-06-24 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램

Country Status (10)

Country Link
US (2) US10140995B2 (ko)
EP (1) EP2743921A4 (ko)
JP (3) JPWO2014007097A1 (ko)
KR (1) KR20150032650A (ko)
CN (1) CN103765508B (ko)
AU (1) AU2013284705B2 (ko)
BR (1) BR112014004128A2 (ko)
CA (1) CA2843226A1 (ko)
RU (1) RU2652468C2 (ko)
WO (1) WO2014007097A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2014007097A1 (ja) 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
CA2843263A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
KR20150032651A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
KR102513009B1 (ko) 2013-12-27 2023-03-22 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
BR112016023716B1 (pt) 2014-04-11 2023-04-18 Samsung Electronics Co., Ltd Método de renderização de um sinal de áudio
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5859641A (ja) 1981-10-05 1983-04-08 Nec Corp デイジタル伝送装置
JP3632891B2 (ja) * 1998-09-07 2005-03-23 日本ビクター株式会社 オーディオ信号の伝送方法、オーディオディスク、エンコード装置及びデコード装置
JP3011925B1 (ja) * 1998-09-18 2000-02-21 日立電子サービス株式会社 ネットワーク監視支援装置
JP3387461B2 (ja) * 1998-10-13 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
US6463410B1 (en) 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
KR100638960B1 (ko) 1999-09-29 2006-10-25 1...리미티드 음향 지향 방법 및 장치
JP3694888B2 (ja) 1999-12-03 2005-09-14 ソニー株式会社 復号装置および方法、符号化装置および方法、情報処理装置および方法、並びに記録媒体
US6680753B2 (en) 2001-03-07 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method and apparatus for skipping and repeating audio frames
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
KR100556844B1 (ko) 2003-04-19 2006-03-10 엘지전자 주식회사 동영상 전송 시스템의 에러 검출 방법
TWI233091B (en) * 2003-11-18 2005-05-21 Ali Corp Audio mixing output device and method for dynamic range control
CN101253550B (zh) 2005-05-26 2013-03-27 Lg电子株式会社 将音频信号编解码的方法
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
EP1908057B1 (en) 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
KR20070003594A (ko) 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 신호에서 클리핑된 신호의 복원방법
TWI485698B (zh) * 2005-09-14 2015-05-21 Lg Electronics Inc 音頻訊號之解碼方法及其裝置
CN101356572B (zh) 2005-09-14 2013-02-13 Lg电子株式会社 解码音频信号的方法和装置
US9009057B2 (en) 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
US20100040135A1 (en) 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN101479785B (zh) 2006-09-29 2013-08-07 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
BRPI0710923A2 (pt) 2006-09-29 2011-05-31 Lg Electronics Inc métodos e aparelhagens para codificação e decodificação de sinais de áudio orientados a objeto
US8805678B2 (en) 2006-11-09 2014-08-12 Broadcom Corporation Method and system for asynchronous pipeline architecture for multiple independent dual/stereo channel PCM processing
JP2008301454A (ja) * 2007-06-04 2008-12-11 Toshiba Corp オーディオデータ中継装置
US8644970B2 (en) 2007-06-08 2014-02-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2158791A1 (en) 2007-06-26 2010-03-03 Koninklijke Philips Electronics N.V. A binaural object-oriented audio decoder
JP4530007B2 (ja) 2007-08-02 2010-08-25 ヤマハ株式会社 音場制御装置
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
KR101061129B1 (ko) * 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2146343A1 (en) 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
KR101600352B1 (ko) 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
CN102100067B (zh) 2009-02-13 2013-04-24 Lg电子株式会社 用于发送和接收信号的装置以及用于发送和接收信号的方法
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
KR101387902B1 (ko) 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5365363B2 (ja) 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102196400A (zh) 2010-03-02 2011-09-21 高通股份有限公司 移动通信终端信息更新的方法和装置
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20150032651A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
WO2014007097A1 (ja) 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
CA2843263A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program

Also Published As

Publication number Publication date
US20140214433A1 (en) 2014-07-31
BR112014004128A2 (pt) 2017-03-21
RU2014106530A (ru) 2015-08-27
JP6583485B2 (ja) 2019-10-02
US10304466B2 (en) 2019-05-28
EP2743921A1 (en) 2014-06-18
JP2018156103A (ja) 2018-10-04
US20160343380A1 (en) 2016-11-24
CA2843226A1 (en) 2014-01-09
US10140995B2 (en) 2018-11-27
WO2014007097A1 (ja) 2014-01-09
JP6868791B2 (ja) 2021-05-12
JP2020003814A (ja) 2020-01-09
EP2743921A4 (en) 2015-06-03
AU2013284705B2 (en) 2018-11-29
JPWO2014007097A1 (ja) 2016-06-02
CN103765508B (zh) 2017-11-24
CN103765508A (zh) 2014-04-30
AU2013284705A1 (en) 2014-02-13
RU2652468C2 (ru) 2018-04-26

Similar Documents

Publication Publication Date Title
JP6504419B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム
JP6508390B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム
JP6868791B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム
JP6504420B2 (ja) テレビジョン受像機および信号処理方法、並びにプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application