KR20200054978A

KR20200054978A - 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램

Info

Publication number: KR20200054978A
Application number: KR1020207007879A
Authority: KR
Inventors: 미츠유키 하타나카; 도루 치넨
Original assignee: 소니 주식회사
Priority date: 2017-10-05
Filing date: 2018-09-21
Publication date: 2020-05-20
Also published as: CN111164679B; WO2019069710A1; US20200265853A1; JP7358986B2; JPWO2019069710A1; US11595056B2; CN111164679A; RU2020111480A3; RU2020111480A; EP3693961A1; EP3693961A4

Abstract

본 기술은, 편리성을 향상시킬 수 있도록 하는 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램에 관한 것이다. 복호 장치는, 부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 오브젝트 오디오의 메타데이터를 판독하는 복호부와, 메타데이터에 기초하여, 복호된 오디오 데이터를 출력하는 출력부를 구비한다. 본 기술은 복호 장치에 적용할 수 있다.

Description

부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램

본 기술은, 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램에 관한 것이며, 특히 편리성을 향상시킬 수 있도록 한 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램에 관한 것이다.

종래, AAC(Advanced Audio Coding)나 MP3(Moving Picture Experts Group 2 Audio Layer 3) 등의 오디오 부호화 기술이 알려져 있다(예를 들어, 비특허문헌 1 및 비특허문헌 2 참조).

이들 AAC나 MP3 등의 오디오 부호화 기술은, 음악 배신을 비롯한 각종 용도로 사용되고 있으며, 음질면이나 실장면에서의 실적이 있다.

ISO/IEC 14496-3:2009 Information technology - Coding of audio-visual objects -- Part 3: Audio ISO/IEC 11172-3:1993 Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s -- Part 3: Audio

그러나, 이들 오디오 부호화 기술, 즉, 종래의 오디오 부호화 규격은 채널 베이스의 오디오 데이터를 취급하는 것을 전제로 한 부호화 기술로 되어 있다.

그 때문에, 3차원 오디오(3D Audio)의 재생에 사용되는 오브젝트 오디오 데이터나, 각 오브젝트 오디오 데이터의 위치 정보 등을 포함하는 3D Audio 메타데이터를 그대로 부호화할 수는 없었다.

이러한 점에서, 상술한 오디오 부호화 규격을 3D Audio로 이용하기 위해 종래 규격과의 호환성을 유지하면서 이루어지는 규격의 확장이 요망되고 있다.

본 기술은 이러한 상황을 감안하여 이루어진 것이며, 편리성을 향상시킬 수 있도록 하는 것이다.

본 기술의 제1 측면의 복호 장치는, 부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하는 복호부와, 상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는 출력부를 구비한다.

본 기술의 제1 측면의 복호 방법 또는 프로그램은, 부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하고, 상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는 스텝을 포함한다.

본 기술의 제1 측면에 있어서는, 부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터가 복호됨과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터가 판독되고, 상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터가 출력된다.

본 기술의 제2 측면의 부호화 장치는, 오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는 부호화부를 구비한다.

본 기술의 제2 측면의 부호화 방법 또는 프로그램은, 오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는 스텝을 포함한다.

본 기술의 제2 측면에 있어서는, 오브젝트 오디오를 포함하는 오디오 데이터가 부호화됨과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터가 저장되어, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림이 생성된다.

본 기술의 제1 측면 및 제2 측면에 의하면, 편리성을 향상시킬 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 효과여도 된다.

도 1은 본 기술에 대하여 설명하는 도면이다.
도 2는 AAC 비트 스트림에 대하여 설명하는 도면이다.
도 3은 부호화 장치의 구성예를 나타내는 도면이다.
도 4는 복호 장치의 구성예를 나타내는 도면이다.
도 5는 3D AAC 비트 스트림의 구성예를 나타내는 도면이다.
도 6은 3D Audio 메타데이터의 적용에 대하여 설명하는 도면이다.
도 7은 외부 취득 3D Audio 메타데이터의 사용에 대하여 설명하는 도면이다.
도 8은 오디오 오브젝트의 위치 정보에 대하여 설명하는 도면이다.
도 9는 오디오 오브젝트의 위치 정보에 대하여 설명하는 도면이다.
도 10은 부호화 처리를 설명하는 흐름도이다.
도 11은 복호 처리를 설명하는 흐름도이다.
도 12는 3D Audio 메타데이터의 분할 전송에 대하여 설명하는 도면이다.
도 13은 3D Audio 메타데이터의 분할 전송에 대하여 설명하는 도면이다.
도 14는 3D Audio 메타데이터의 분할 전송에 대하여 설명하는 도면이다.
도 15는 프레임 내 DSE 분할 정보에 대하여 설명하는 도면이다.
도 16은 프레임 분할 정보에 대하여 설명하는 도면이다.
도 17은 분할 정보에 대하여 설명하는 도면이다.
도 18은 3D Audio 메타데이터의 복수 프레임으로의 분할에 대하여 설명하는 도면이다.
도 19는 부호화 처리를 설명하는 흐름도이다.
도 20은 복호 처리를 설명하는 흐름도이다.
도 21은 컴퓨터의 구성예를 나타내는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.

<제1 실시 형태>

<본 기술에 대하여>

본 기술은, 원래는 3D Audio, 즉, 오브젝트 오디오 데이터를 취급하는 것이 상정되지 않은 AAC나 MP3 등의 부호화 방식을 사용해도, 오브젝트 오디오 데이터나 3D Audio 메타데이터를 부호화하여 전송하고, 복호측에 있어서 3D Audio 재생을 실현할 수 있게 함으로써, 편리성을 향상시키는 것이다.

본 기술은, 특히 이하와 같은 특징을 갖고 있다.

특징 (1)

3D Audio에 대응하지 않은 AAC 등의 코덱에 있어서 안실러리 데이터 영역에 3D Audio의 렌더링에 필요한 3D Audio 메타데이터를 저장한다

특징 (2)

3D Audio 메타데이터가 하나의 안실러리 데이터 영역에 수렴되지 않을 경우에는, 복수의 안실러리 데이터 영역에 3D Audio 메타데이터를 저장한다

특징 (3)

3D Audio 메타데이터가 간헐적으로 존재하는 경우에는, 재생 대상의 프레임에 대하여, 이미 취득된 3D Audio 메타데이터 중 마지막에 얻어진 것을 적용한다

특징 (4)

3D Audio의 오디오 데이터의 구성에 관한 정보를 코덱층의 코멘트 필드에 기술함으로써, 종래의 코덱(부호화) 규격을 유지한 채 오디오 데이터를 전송한다

특징 (5)

3D Audio 메타데이터가 하나의 프레임의 안실러리 데이터 영역에 수렴되지 않을 경우에는, 복수의 프레임에 걸쳐서 3D Audio 메타데이터를 전송한다. 그 때, 부호화 장치측에서는, 본래의 프레임마다 저장해야 할 3D Audio 메타데이터의 씨닝 처리를 행하고, 복수 프레임의 3D Audio 메타데이터의 대표값을 전송한다

특징 (6)

3D Audio의 채널 매핑을 가능한 한 기존의 채널 매핑에 할당하여, 그 채널 매핑을 나타내는 정보를 비트 스트림에 저장하고, 전송한다

이상과 같은 특징을 갖는 본 기술에서는, AAC나 MP3 등의 기존의 부호화 기술을 사용하여, 그 부호화 기술의 호환성을 유지한 채 3D Audio의 재생을 실현할 수 있다.

구체적으로는, 예를 들어 3D Audio에서는, 3차원 공간 상의 임의의 위치에 오디오 오브젝트 등의 음원의 음상을 정위시킬 수 있다.

이러한 3D Audio에서는, 오디오 오브젝트의 오디오 데이터, 즉, 오브젝트 베이스의 오디오 데이터나, 채널 베이스의 오디오 데이터 등을 포함하는 오디오 엘리먼트에 더하여, 3D Audio 메타데이터가 필요하게 된다.

여기서, 3D Audio 메타데이터는, 예를 들어 오디오 오브젝트의 3차원 공간 상의 위치를 나타내는 위치 정보나, 오디오 오브젝트의 오디오 데이터의 게인 조정에 사용하는 게인 정보 등을 포함하는 데이터이다.

그러나, AAC나 MP3 등의 부호화 방식에서는, 원래, 이러한 3D Audio 메타데이터를 다루는 것은 상정되어 있지 않기 때문에, 그대로로는 3D Audio 메타데이터를 부호화하여, 전송할 수 없다.

그래서 본 기술에서는, 도 1의 화살표 Q11에 나타내는 바와 같이, 오디오 데이터가 저장되는 부호화 비트 스트림에 마련된 확장 영역에, 부호화된 3D Audio 메타데이터를 저장하도록 하였다.

이에 의해, 3D Audio에 대응하지 않은 부호화 방식의 부호화 비트 스트림에서도, 3D Audio 메타데이터를 전송하고, 3D Audio의 재생을 행할 수 있게 된다.

여기서, 3D Audio 메타데이터가 저장되는 확장 영역은, 기존 부호화 기술에서 정의되어 있는, 사용자가 독자적인 룰로 자유로이 데이터를 기록하는 것이 허용되는 영역, 즉, 임의의 데이터를 저장 가능한 영역이며, 안실러리 데이터 영역이라고도 부르고 있다.

구체적으로는, 예를 들어 본 기술을 AAC 부호화 기술에 적용하는 경우, 화살표 Q12에 나타내는 바와 같이 부호화 비트 스트림인 AAC 비트 스트림에는, 화살표 Q11에 나타낸 예의 확장 영역에 대응하는 영역으로서, DSE(Data Stream Element)가 마련되어 있다. 그래서, AAC 부호화 방식에 의해 오디오 데이터가 부호화될 때에는, 부호화된 3D Audio 메타데이터가 안실러리 데이터로서 DSE에 저장된다.

예를 들어 화살표 Q12에 나타내는 AAC 비트 스트림을 수신한 복호 장치가, 3D Audio, 즉, 3D Audio 메타데이터에 대응하고 있는 경우에는, 그 복호 장치는 AAC 비트 스트림으로부터 3D Audio 메타데이터를 판독하여 복호하고, 3D Audio의 재생에 사용할 수 있다.

이에 비해, 3D Audio 메타데이터에 비대응의 복호 장치는, DSE에 기술된 안실러리 데이터로서의 3D Audio 메타데이터를 해석할 수는 없다.

그러나 복호 장치에서는, AAC 규격에서 정의되어 있는, DSE에 기록된 안실러리 데이터의 데이터 사이즈를 나타내는 데이터 사이즈 정보를 얻을 수 있다. 따라서, 복호 장치는, 그 데이터 사이즈 정보를 사용하여 DSE 내의 3D Audio 메타데이터의 부분을 건너뛰고 읽을 수 있어, AAC 규격과의 호환성을 유지할 수 있다.

또한, 본 기술을 MP3에 적용하는 경우에는, 화살표 Q13에 나타내는 바와 같이 부호화 비트 스트림인 MP3 비트 스트림에는, 화살표 Q11에 나타낸 예의 확장 영역에 대응하는 영역으로서, 안실러리 데이터 영역이 마련되어 있다. 그래서, MP3 부호화 방식에 의해 오디오 데이터가 부호화될 때에는, 부호화된 3D Audio 메타데이터가, 안실러리 데이터로서 안실러리 데이터 영역에 저장된다.

그러면, 이하, 본 기술에 대하여 더욱 상세하게 설명한다. 이하에서는, 설명을 구체적으로 하기 위해서, 본 기술을 AAC 규격에 적용한 예, 즉, AAC 부호화 기술을 사용하여, AAC 규격의 호환성을 유지한 채 3D Audio의 재생을 행하는 예에 대하여 설명한다.

본 기술을 AAC 규격에 적용한 경우, AAC 비트 스트림, 즉, AAC에 따라서 오디오 데이터를 부호화함으로써 얻어진 부호화 비트 스트림은, 도 2에 나타내는 구성으로 된다.

즉, AAC 비트 스트림에는 PCE(Program Config Element) 및 DSE가 마련되어 있음과 함께, 재생에 사용되는 오디오 데이터를 포함하는 AAC 오디오 엘리먼트 데이터가 저장되어 있다.

예를 들어 AAC 오디오 엘리먼트 데이터에는, 3D Audio의 재생을 실현하기 위한 오디오 데이터로서, 오디오 오브젝트의 오디오 데이터, 채널 베이스의 오디오 데이터, 및 HOA(High Order Ambisonic) 베이스의 오디오 데이터의 적어도 어느 하나가 포함되어 있다.

여기서, 오디오 오브젝트의 오디오 데이터, 즉, 오브젝트 베이스의 오디오 데이터란, 소위 오브젝트 오디오이며, 오디오 오브젝트의 소리를 재생하기 위한 오디오 신호이다. 또한, 채널 베이스의 오디오 데이터는, 예를 들어 5.1 채널이나 22.2 채널 등의 소정의 채널 구성의 각 채널의 오디오 신호, 즉, 각 채널에 대응하는 스피커에서 재생되는 소리의 오디오 신호이다.

또한, HOA 베이스의 오디오 데이터란, 앰비소닉 형식의 오디오 신호이다. 즉, HOA 베이스의 오디오 데이터는, 채널 베이스의 오디오 신호를 앰비소닉 형식으로 표현한 것이다. 또한, 이하, HOA 베이스의 오디오 데이터를, 앰비소닉 베이스의 오디오 데이터라고도 칭하기로 한다.

이하에서는, 오디오 오브젝트의 오디오 데이터, 채널 베이스의 오디오 데이터, 및 앰비소닉 베이스의 오디오 데이터를 특별히 구별할 필요가 없을 경우, 단순히 오디오 데이터라고도 칭하기로 한다.

AAC 비트 스트림의 PCE에 있어서의 임의의 데이터를 저장 가능한 코멘트 필드에는, AAC 오디오 엘리먼트 데이터의 구성 요소를 나타내는 3D Audio 구성 요소 정보가 저장된다. 여기에서는, 3D Audio 구성 요소 정보는, AAC 오디오 엘리먼트 데이터를 구성하는 채널 베이스의 오디오 데이터의 수인 채널 베이스 수, 오디오 오브젝트의 오디오 데이터의 수인 오브젝트 오디오 수, 및 앰비소닉 베이스의 오디오 데이터의 수인 HOA 오디오 수를 나타내는 정보로 되어 있다.

또한, AAC 비트 스트림의 DSE에는, AAC 오디오 엘리먼트 데이터를 구성하는 오디오 데이터의 메타데이터인 3D Audio 메타데이터가 안실러리 데이터로서 저장된다.

여기에서는, 3D Audio 메타데이터로서, 채널 베이스 메타데이터나, 오브젝트 베이스 메타데이터, 앰비소닉 베이스 메타데이터가 포함되어 있다.

예를 들어 채널 베이스 메타데이터는, 채널 베이스의 오디오 데이터의 메타데이터이며, 채널 베이스의 각 오디오 데이터가 어느 채널의 것인지를 나타내는 대응 채널 정보 등을 포함한다.

또한, 오브젝트 베이스 메타데이터는, 오디오 오브젝트의 오디오 데이터의 메타데이터이며, 오디오 오브젝트의 수를 나타내는 오브젝트수 정보나, 각 오디오 오브젝트의 3차원 공간 상의 위치를 나타내는 위치 정보, 각 오디오 오브젝트의 오디오 데이터에 승산되는 게인을 나타내는 게인 정보 등을 포함한다.

또한, 앰비소닉 베이스 메타데이터는, 앰비소닉 베이스의 오디오 데이터의 메타데이터이며, 앰비소닉의 차수나 모드를 나타내는 정보 등을 포함한다.

또한, 이하에서는, 본 기술을 적용하여 얻어진 AAC 비트 스트림, 즉, AAC를 베이스로 한, 3D Audio 메타데이터가 저장되는 부호화 비트 스트림을, 특히 3D AAC 비트 스트림이라고도 칭하기로 한다.

<부호화 장치의 구성예>

계속해서, 이상에 있어서 설명한 3D AAC 비트 스트림을 생성하는 부호화 장치와, 그 부호화 장치로부터 출력된 3D AAC 비트 스트림을 수신하여 복호하는 복호 장치에 대하여 설명한다.

도 3은, 본 기술을 적용한 부호화 장치의 구성예를 나타내는 도면이다.

도 3에 나타내는 부호화 장치(11)는, 3D Audio 메타데이터 부호화부(21) 및 AAC 부호화부(22)를 갖고 있다.

부호화 장치(11)에서는, 외부로부터 3D Audio 메타데이터 부호화부(21)에는, 채널 베이스 메타데이터나, 오브젝트 베이스 메타데이터, 앰비소닉 베이스 메타데이터가 3D Audio 메타데이터로서 공급된다.

또한, 외부로부터 AAC 부호화부(22)에는, 오디오 오브젝트의 오디오 데이터(오브젝트 오디오)나, 채널 베이스의 오디오 데이터, 앰비소닉 베이스의 오디오 데이터 등의 각종 오디오 데이터, 및 3D Audio 구성 요소 정보가 공급된다. 여기에서는, 각 오디오 데이터는, 콘텐츠를 재생하기 위한 PCM(Pulse Code Modulation) 신호로 되어 있으며, 외부로부터 AAC 부호화부(22)에는, 적어도 오브젝트 오디오를 포함하는 1개 또는 복수의 오디오 데이터가 공급되는 것으로 한다.

3D Audio 메타데이터 부호화부(21)는, 외부로부터 공급된 3D Audio 메타데이터를 부호화하고, 부호화된 3D Audio 메타데이터를 AAC 부호화부(22)에 공급한다. 이하에서는, 3D Audio 메타데이터 부호화부(21)에 의해 부호화된 3D Audio 메타데이터를, 부호화 3D Audio 메타데이터라고도 칭하기로 한다.

AAC 부호화부(22)는, 3D Audio 메타데이터 부호화부(21)로부터 공급된 부호화 3D Audio 메타데이터와, 외부로부터 공급된 3D Audio 구성 요소 정보 및 오디오 데이터를 AAC 부호화 방식으로 부호화하여 3D AAC 비트 스트림을 생성하고, 출력한다.

여기에서는, AAC 부호화부(22)에 공급되는 오디오 데이터는 PCM 신호로 되어 있기 때문에, 그들 오디오 데이터를 AAC 규격의 AAC 오디오 엘리먼트 데이터로서 부호화하는 것이 가능하다.

또한, 외부로부터 AAC 부호화부(22)에 3D Audio 구성 요소 정보가 공급되는 것은 아니고, AAC 부호화부(22)가 3D Audio 메타데이터 부호화부(21)로부터 필요한 정보의 공급을 받아, 그 정보에 기초하여 3D Audio 구성 요소 정보를 생성하도록 해도 된다.

<복호 장치의 구성예>

이어서, 도 3에 도시한 부호화 장치(11)로부터 출력된 3D AAC 비트 스트림을 수신하여 복호하는 복호 장치의 구성에 대하여 설명한다. 그러한 복호 장치는, 예를 들어 도 4에 도시하는 바와 같이 구성된다.

도 4에 나타내는 복호 장치(51)는, AAC 복호부(61), 3D Audio 메타데이터 복호부(62), 3D Audio 메타데이터 취득부(63) 및 3D Audio 렌더러(64)를 갖고 있다.

AAC 복호부(61)는, 부호화 장치(11)로부터 송신되어 온 3D AAC 비트 스트림을 수신하고, 수신한 3D AAC 비트 스트림을 복호한다.

AAC 복호부(61)는, 3D AAC 비트 스트림의 복호에 의해 얻어진 부호화 3D Audio 메타데이터를 3D Audio 메타데이터 복호부(62)에 공급함과 함께, 복호에 의해 얻어진 오디오 데이터, 즉, PCM 신호를 3D Audio 렌더러(64)에 공급한다.

여기서, AAC 복호부(61)로부터 3D Audio 렌더러(64)에 공급되는 오디오 데이터는, 오디오 오브젝트의 오디오 데이터(오브젝트 오디오 데이터)나, 채널 베이스의 오디오 데이터, 앰비소닉 베이스의 오디오 데이터 등이다.

또한, AAC 복호부(61)는, 복호에 의해 얻어진 3D Audio 구성 요소 정보를, 적절히 복호 장치(51)를 제어하는 상위의 제어부에 공급한다.

3D Audio 메타데이터 복호부(62)는, AAC 복호부(61)로부터 공급된 부호화 3D Audio 메타데이터를 복호하고, 그 결과 얻어진 3D Audio 메타데이터로서의 채널 베이스 메타데이터나, 오브젝트 베이스 메타데이터, 앰비소닉 베이스 메타데이터를 3D Audio 렌더러(64)에 공급한다.

3D Audio 메타데이터 취득부(63)는, 적절히, 외부로부터 필요한 정보를 취득하여 3D Audio 메타데이터를 생성하거나, 외부의 서버 등으로부터 3D Audio 메타데이터를 수신하거나 함으로써 3D Audio 메타데이터를 취득하고, 3D Audio 렌더러(64)에 공급한다.

3D Audio 렌더러(64)는, 렌더링 처리를 행하여 3D Audio 재생을 위한 재생 데이터를 생성함과 함께, 얻어진 재생 데이터를 출력하는 출력부, 즉, 3D Audio 메타데이터에 기초하여, 복호된 오디오 데이터를 출력하는 출력부로서 기능한다.

구체적으로는, 3D Audio 렌더러(64)는, 3D Audio 메타데이터 복호부(62) 또는 3D Audio 메타데이터 취득부(63)로부터 공급된 3D Audio 메타데이터와, AAC 복호부(61)로부터 공급된 오디오 데이터에 기초하여 렌더링을 행하고, 소정 채널수의 오디오 데이터를 재생 데이터로서 생성한다.

재생 데이터는, 예를 들어 2 채널이나 5.1 채널 등의 소정의 채널 구성의 각 채널의 오디오 데이터를 포함하는, 3D Audio 재생을 실현하기 위한 오디오 신호이다. 이 재생 데이터에 기초하여 소리를 재생하면, 예를 들어 오디오 오브젝트의 소리의 음상을, 그 오디오 오브젝트의 3D Audio 메타데이터에 포함되어 있는 위치 정보에 의해 나타내는 3차원 공간 상의 위치에 정위시킬 수 있다.

3D Audio 렌더러(64)는, 얻어진 재생 데이터를 외부에 출력한다. 예를 들어 3D Audio 렌더러(64)는, 재생 데이터를 스피커에 공급하여 소리를 재생시키거나, 재생 데이터를 도시하지 않은 기록부에 공급하여 기록시키거나 한다.

<3D AAC 비트 스트림의 구성예>

여기서, 이상과 같은 부호화 장치(11)와 복호 장치(51) 사이에서 수수되는 3D AAC 비트 스트림의 구체적인 구성예에 대하여 설명한다.

예를 들어 AAC 오디오 엘리먼트 데이터가, 7.1 채널의 채널 베이스 오디오 데이터와, 두 오디오 오브젝트의 오디오 데이터와, 앰비소닉 베이스의 1차 앰비소닉의 오디오 데이터로 구성된다고 하자.

그러한 경우, 3D AAC 비트 스트림은, 예를 들어 도 5에 도시하는 바와 같이 구성된다. 이 예에서는, 오디오 데이터의 1 프레임분의 3D AAC 비트 스트림의 선두에는, PCE와 DSE가 배치되어 있다. 그리고, PCE에는 3D Audio 구성 요소 정보가 저장되어 있고, DSE에는 부호화된 3D Audio 메타데이터가 저장되어 있다.

또한, DSE에 이어서 하나의 SCE(Single Channel Element), 세 CPE(Channel Pair Element), 및 하나의 LFE(Low Frequency Effects)가 배치되어 있다. 그리고, 이들 SCE, CPE 및 LFE에 7.1 채널의 채널 베이스 오디오 데이터가 저장되어 채널 베이스 오디오 엘리먼트로 되어 있다.

또한, 채널 베이스 오디오 엘리먼트 뒤에는, 두 SCE가 배치되어 있고, 그들 SCE에 두 오디오 오브젝트의 오디오 데이터가 저장되어 오브젝트 베이스 오디오 엘리먼트로 되어 있다.

오브젝트 베이스 오디오 엘리먼트에 이어서, 네 SCE가 배치되어 있고, 그들 SCE에 앰비소닉 베이스의 1차 앰비소닉의 오디오 데이터가 저장되어 앰비소닉 베이스 오디오 엘리먼트로 되어 있다.

그리고, 앰비소닉 베이스 오디오 엘리먼트 뒤에, 즉, 1 프레임분의 3D AAC 비트 스트림의 종단에는 FIL이 배치되어 있다.

이렇게 도 5에 도시한 예에서는, AAC 오디오 엘리먼트 데이터는, 채널 베이스 오디오 엘리먼트, 오브젝트 베이스 오디오 엘리먼트, 및 앰비소닉 베이스 오디오 엘리먼트로 구성되어 있다.

또한, AAC 오디오 엘리먼트 데이터는, 이들 채널 베이스 오디오 엘리먼트, 오브젝트 베이스 오디오 엘리먼트, 및 앰비소닉 베이스 오디오 엘리먼트의 적어도 어느 하나로 구성되게 해도 된다.

<3D Audio 메타데이터의 전송에 대하여>

그런데, 3D Audio에서는 기본적으로는 프레임마다 3D Audio 메타데이터가 전송된다. 그러나, 예를 들어 오디오 오브젝트의 움직임이 없는 프레임 구간 등, 반드시 복수의 프레임마다 3D Audio 메타데이터가 필요하지는 않을 때에는, 3D Audio 메타데이터를 프레임마다 전송하지 않아도 된다.

그러한 경우, 예를 들어 도 6에 나타내는 바와 같이 3D Audio 메타데이터가 전송되지 않은 프레임에서는, 그 프레임보다도 전의 프레임의 3D Audio 메타데이터 중, 시간적으로 마지막에 취득된 3D Audio 메타데이터가 현 프레임의 것으로서 이용된다.

도 6에 나타내는 예에서는, 화살표 A11 내지 화살표 A15에 의해 나타내는 사각형의 각각이 프레임 N 내지 프레임 (N+4)의 각각의 3D AAC 비트 스트림을 나타내고 있다. 또한, 이하에서는 1 프레임분의 3D AAC 비트 스트림을, AAC 프레임 데이터라고도 칭하기로 한다.

예를 들어 프레임 N에서는, AAC 프레임 데이터에, 그 프레임 N의 3D Audio 메타데이터가 저장되어 있으므로, 복호 장치(51)에서는, 복호에 의해 얻어진 프레임 N의 3D Audio 메타데이터(이하, 3D Audio 메타데이터 (N)이라고도 기재하기로 함)가 사용되어 렌더링이 행해진다.

이에 비해, 다음 프레임 (N+1)에서는, AAC 프레임 데이터에 3D Audio 메타데이터가 저장되어 있지 않다. 그래서, 복호 장치(51)에서는, 마지막에 취득된, 즉, 마지막으로 복호에 의해 얻어진 프레임 N의 3D Audio 메타데이터 (N)가 사용되어, 프레임 (N+1)의 렌더링이 행해진다.

이렇게 현 프레임의 3D Audio 메타데이터가 없을 경우에는, 이미 3D AAC 비트 스트림의 DSE로부터 판독되고 있는, 현 프레임보다도 시간적으로 전 프레임의 3D Audio 메타데이터 중, 가장 현 프레임에 시간적으로 가까운 프레임의 3D Audio 메타데이터가, 현 프레임의 3D Audio 메타데이터로서 사용된다.

바꾸어 말하면, 현 프레임보다도 전 프레임에서 DSE로부터 판독되고 있는 3D Audio 메타데이터 중의 시간적으로 마지막에 판독된 3D Audio 메타데이터가, 현 프레임의 3D Audio 메타데이터로서 사용되어, 현 프레임의 렌더링이 행해진다. 더욱 상세히 설명하면, 결과적으로, 현 프레임의 3D Audio 메타데이터가 없을 경우에는, 그 현 프레임의 직전 프레임에서 사용된 3D Audio 메타데이터를, 현 프레임의 것으로서도 사용하게 된다.

프레임 (N+1)에 있어서의 경우와 동일하게, 그 후의 프레임 (N+2) 및 프레임 (N+3)에 있어서도, 그들 프레임에서는 3D Audio 메타데이터가 저장되어 있지 않았으므로, 마지막에 얻어진 프레임 N의 3D Audio 메타데이터 (N)가 사용되어 렌더링이 행해진다.

이에 비해, 프레임 (N+3)에 이어지는 프레임 (N+4)에서는, 복호에 의해 그 프레임 (N+4)의 3D Audio 메타데이터 (N+4)가 얻어지므로, 그 3D Audio 메타데이터 (N+4)가 사용되어 렌더링이 행해진다.

또한, 현 프레임에 있어서 DSE에 아무것도 저장되어 있지 않고, 3D Audio 메타데이터가 저장되어 있지 않다고 판정된 경우에, 현 프레임보다도 시간적으로 전 프레임의 3D Audio 메타데이터를 참조하도록 할 수 있다.

이 경우, 현 프레임의 DSE에 3D Audio 메타데이터가 저장되어 있지 않은 것이, 현 프레임보다도 시간적으로 전 프레임의 3D Audio 메타데이터의 참조의 지시를 나타내고 있다고도 할 수 있다.

그 밖에, DSE에 3D Audio 메타데이터뿐만 아니라, 현 프레임보다도 시간적으로 전 프레임의 3D Audio 메타데이터를 사용(참조)할지 여부를 나타내는 전 프레임 참조 플래그도 저장하도록 해도 된다.

즉, 전 프레임 참조 플래그는, 현 프레임보다도 전 프레임에서 DSE로부터 판독되어 있는 3D Audio 메타데이터 중의 시간적으로 마지막에 판독된 3D Audio 메타데이터를, 현 프레임의 3D Audio 메타데이터로서 사용할 것인지를 지시하는 정보이다.

바꾸어 말하면, 전 프레임 참조 플래그는, 현 프레임의 3D Audio 메타데이터로서, 현 프레임보다도 시간적으로 전 프레임의 DSE에 저장된 3D Audio 메타데이터 중, 가장 현 프레임에 가까운 프레임의 3D Audio 메타데이터를 사용할 것인지를 지시하는 정보이다.

이 경우, 예를 들어 전 프레임의 3D Audio 메타데이터를 참조하는 경우에는 전 프레임 참조 플래그의 값이 「1」로 되고, DSE에는 값이 1인 전 프레임 참조 플래그만이 기술된다.

이에 비해, 전 프레임의 3D Audio 메타데이터를 참조하지 않을 경우에는 전 프레임 참조 플래그의 값이 「0」으로 되고, DSE에는 값이 0인 전 프레임 참조 플래그에 이어서 3D Audio 메타데이터가 기술된다. 이하에서는, DSE에 전 프레임 참조 플래그가 저장되는 것으로서 설명을 계속한다.

또한, 3D Audio 메타데이터는, DSE 내에 저장되는 데이터이며, AAC 부호화 규격과는 독립된 데이터가 된다.

그 때문에, 3D AAC 비트 스트림을 도중으로부터 재생하는 경우, 즉, 콘텐츠를 도중으로부터 재생하는 경우, AAC 규격의 프레임(오디오 데이터)의 복호가 되었다고 해도 3D Audio 메타데이터의 복호가 완료되지 않은 경우가 있다. 이것은, 3D Audio 메타데이터가 차분 부호화 등에 의해 부호화되어 있는 경우에는, 차분 부호화를 행하지 않는 리셋 프레임이 출현할 때까지는 차분의 기점이 불분명한 것에 기인하는 것이다.

또한, 3D AAC 비트 스트림을 도중으로부터 재생하는 경우, 몇몇 프레임에서 3D Audio 메타데이터가 생략되어 있는 경우도 있다.

그래서, 본 기술에서는 현 프레임의 3D Audio 메타데이터가 얻어지지 않는 경우에, 시간적으로 전 프레임의 3D Audio 메타데이터를 그대로 사용하는 것 외에도, 복호 장치(51)측에서 미리 유지되어 있는 3D Audio 메타데이터의 디폴트값을 사용하게 할 수 있다.

또한, 이하, 복호 장치(51)측에서 미리 유지되어 있는 디폴트값 등, 3D AAC 비트 스트림으로부터 판독된 3D Audio 메타데이터와는 상이한 다른 3D Audio 메타데이터를, 외부 취득 3D Audio 메타데이터라고도 칭하기로 한다.

예를 들어 도 7에 나타내는 바와 같이, 콘텐츠의 선두 부분의 몇몇 프레임에 있어서 3D Audio 메타데이터가 얻어지지 않았다고 하자.

도 7에서는, 화살표 A21 내지 화살표 A25에 의해 나타내는 사각형의 각각이 프레임 0 내지 프레임 4의 각각의 AAC 프레임 데이터를 나타내고 있다.

이 예에서는, 선두의 프레임 0으로부터 4번째 프레임 3까지의 사이에는, AAC 규격에서의 오디오 데이터의 복호는 되었지만, 3D Audio 메타데이터의 복호가 되지 않았거나, DSE에 3D Audio 메타데이터가 저장되지 않았거나 하는 등의 이유로 3D Audio 메타데이터가 없는 상태로 되어 있다.

그래서, 3D Audio 메타데이터 취득부(63)는, 미리 정해진 초기 메타데이터값을 외부 취득 3D Audio 메타데이터로서 취득하고, 3D Audio 렌더러(64)에 공급한다.

예를 들어 초기 메타데이터값에서는, 오디오 오브젝트의 위치 정보에 의해 나타내는 위치는, 3차원 공간 상의 유저의 바로 정면의 위치 등, 미리 정해진 위치 등으로 되어 있다.

또한, 초기 메타데이터값의 취득 시에는, 예를 들어 3D Audio 메타데이터 취득부(63)는, PCE로부터 판독된 3D Audio 구성 요소 정보에 기초하여, 외부 취득 3D Audio 메타데이터로서의 초기 메타데이터값을 취득한다. 구체적으로는, 예를 들어 3D Audio 구성 요소 정보에 의해 나타내는 오브젝트 오디오 수에 기초하여, 오디오 오브젝트의 수만큼 위치 정보나 게인 정보가 취득된다.

외부 취득 3D Audio 메타데이터를 취득하는 경우, AAC 오디오 엘리먼트 데이터가 어떤 구성으로 되어 있는지, 즉, 채널 베이스 수나 오브젝트 오디오 수 등, 오디오 데이터의 구성을 나타내는 정보가 필요해진다. 그 때문에, 예를 들어 부호화 장치(11)에 있어서 전 프레임 참조 플래그의 값이 「1」로 되고, 3D Audio 메타데이터가 DSE에 저장되지 않는 경우에는, 반드시 PCE에 3D Audio 구성 요소 정보가 기술되게 된다.

3D Audio 렌더러(64)는, 외부 취득 3D Audio 메타데이터로서의 초기 메타데이터값의 공급을 받으면, 프레임 0 내지 프레임 3에 대하여는, 공급된 초기 메타데이터값을 사용하여 렌더링을 행한다. 그리고, 프레임 4에 있어서 DSE로부터 3D Audio 메타데이터가 판독되면, 프레임 4에 대하여는, 그 판독된 3D Audio 메타데이터에 기초하여 렌더링이 행해진다.

이와 같이, 콘텐츠의 선두 부분이나 도중의 부분 등, 장시간, DSE로부터 3D Audio 메타데이터가 얻어지지 않은 경우에는, 3D Audio 구성 요소 정보 등에 기초하여 취득한 외부 취득 3D Audio 메타데이터를 사용하면, 당분간 3D Audio의 재생을 행할 수 있다.

예를 들어 부호화 장치(11)측에서는, 오브젝트에 움직임이 없는 경우 등, 복수의 프레임에 걸쳐 3D Audio 메타데이터에 변화가 없을 때에는, 전 프레임 참조 플래그의 값이 「1」로 되고, 어느 정도 장기간, 3D Audio 메타데이터가 전송되지 않는 경우도 있다. 그러한 경우에, 복호 장치(51)측에 있어서 참조처가 되는 3D Audio 메타데이터가 어떠한 이유에 의해 얻어지지 않았을 때에는, 외부 취득 3D Audio 메타데이터를 이용함으로써, 3D Audio의 재생을 행할 수 있다.

또한, 외부 취득 3D Audio 메타데이터를 사용하는 경우, 그 후, DSE로부터 판독된 3D Audio 메타데이터를 사용할 때, 갑자기 3D Audio 메타데이터가 외부 등에서 취득한 것으로부터, DSE로부터 판독된 것으로 변화되면, 오디오 오브젝트의 위치가 불연속이 되는 등, 위화감이 발생해버리는 경우도 있다. 그래서, 예를 들어 몇 프레임 사이에는, 마지막에 사용한 외부 취득 3D Audio 메타데이터와, DSE로부터 판독된 3D Audio 메타데이터에 기초하여 보간 처리를 행하고, 보간 처리에 의해 얻어진 3D Audio 메타데이터가 사용되도록 함으로써, 원활하게 오디오 오브젝트의 위치 등이 천이하도록 해도 된다.

또한, 외부 취득 3D Audio 메타데이터는, 외부로부터 취득한 정보 등에 기초하여 3D Audio 메타데이터 취득부(63)에 의해 생성되는 것 이외에도, 네트워크를 통하여 서버로부터 취득되거나, 3D AAC 비트 스트림과는 별도로 부호화 장치(11)로부터 취득되거나 하는 등, 어떻게 해서 취득되도록 해도 된다. 또한, 콘텐츠마다, 각 재생 시각의 외부 취득 3D Audio 메타데이터가 미리 준비되어 있으며, 콘텐츠의 재생 시각에 따라서 적절한 외부 취득 3D Audio 메타데이터가 취득되거나 해도 된다.

또한, 유저의 지시 등에 의해 3D Audio 메타데이터가 변경되게 해도 된다. 일례로서, 예를 들어 네트워크형 대전 게임 등, 인터렉티브하게 복수의 유저에 의해 공유되어 재생되는 콘텐츠에 대하여는, 복호 장치(51)에 있어서의 유저 조작뿐만 아니라, 다른 유저의 조작 등도 고려되어 3D Audio 메타데이터가 변경되게 할 수 있다.

상술한 바와 같이, 외부 취득 3D Audio 메타데이터가 취득되는 경우, AAC 부호화 방식으로 부호화된 AAC 오디오 엘리먼트 데이터가, 채널 베이스의 것인지, 오브젝트 베이스의 것인지, 앰비소닉 베이스의 것인지 등, 오디오 데이터의 종별을 식별하는 식별 정보가 필요해진다. 바꾸어 말하면, AAC 오디오 엘리먼트 데이터의 구성을 나타내는 구성 정보가 필요해진다. 이러한 정보는, 3D Audio 메타데이터를 복호하지 않아도 취득할 수 있어야만 한다.

그래서, 본 기술에서는, 도 2를 참조하여 설명한 바와 같이, 오디오 데이터의 종별을 식별하는 정보, 즉, AAC 오디오 엘리먼트 데이터의 구성을 나타내는 정보로서, 3D Audio 구성 요소 정보가 PCE의 코멘트 필드에 저장되어 있다. 또한, 3D Audio 구성 요소 정보에 의해 나타내는 정보는, 3D Audio 메타데이터에도 포함되어 있다.

PCE의 코멘트 필드에 3D Audio 구성 요소 정보를 저장함으로써, 복호 장치(51)에서는, AAC 복호부(61)에 있어서의 AAC 규격의 복호 처리 중에서 3D Audio 구성 요소 정보를 얻을 수 있다. 또한 PCE는, MPEG-4 File Format층에서도 독립적으로 사용되게 되기 때문에, 3D Audio 구성 요소 정보의 PCE에의 저장에는, 시스템층으로부터도 3D Audio 구성 요소 정보를 취득할 수 있다는 이점이 있다.

또한, PCE의 코멘트 필드에 대해서도, DSE에 있어서의 경우와 동일하게, 본 기술에 대응하지 않은 복호 장치는 AAC 규격으로 기록된 코멘트 필드의 바이트수를 건너뛰어 읽을 수 있으므로, AAC 규격의 호환성을 유지할 수 있다.

<2차원 평면 상의 위치 정보의 전송에 대하여>

그런데, AAC 규격에서는, 각 오디오 엘리먼트, 즉, 각 오디오 데이터의 스피커 배치 정보를, PCE에 있어서 전방 위치(FRONT), 횡 위치(SIDE) 또는 후방 위치(BACK)라는 2차원 평면 상의 위치 정보로서 기록할 수 있다. 즉, 전방, 후방 및 측방의 각 방향 중 어느 방향으로 오디오 데이터를 재생하는 스피커가 있는지를 나타내는 스피커 배치 정보를 PCE에 저장하는 것이 가능하다.

한편, 3D AAC 비트 스트림에서는 각 오디오 오브젝트, 즉, 오브젝트 베이스의 오디오 데이터 위치 정보로서, 오디오 오브젝트의 평면 방향의 위치를 나타내는 각도와, 높이 방향의 위치를 나타내는 각도가 3D Audio 메타데이터에 포함되어 있다.

본 기술에서는, 엘리먼트 개수의 상한(제한)은 있지만, 가능한 한 평면 방향의 각도에 맞추어 오디오 오브젝트의 위치에 대응하는 스피커 배치 정보를 PCE에 기술하게 해도 된다.

구체적으로는, 예를 들어 도 8에 나타내는 바와 같이 오디오 오브젝트로서 네 오디오 오브젝트 EL11 내지 오디오 오브젝트 EL14가 있다고 하자.

도 8에서는, 도면 중, 앞쪽이 시청자인 유저 U11의 정면 방향, 즉, 전방 방향이며, 도면 중, 안쪽이 유저 U11의 후방으로 되어 있다.

이 예에서는, 오디오 오브젝트 EL11이 유저 U11의 전방 상측에 위치하고 있으며, 오디오 오브젝트 EL12가 유저 U11의 전방 우상측에 위치하고 있다. 또한, 오디오 오브젝트 EL13이 유저 U11의 후방 상측에 위치하고 있으며, 오디오 오브젝트 EL14가 유저 U11의 좌측방 상측에 위치하고 있다.

이러한 경우, 부호화 장치(11)에서는, 오디오 오브젝트 EL11과 오디오 오브젝트 EL12가 전방에 위치하는 전방 위치 오디오 엘리먼트가 된다. 그리고, 그들 오디오 오브젝트의 스피커 배치 정보로서 전방 위치를 나타내는 정보가 PCE에 기술된다.

즉, 오디오 오브젝트 EL11과 오디오 오브젝트 EL12의 3차원 공간 상의 위치가, 2차원 평면 상의 전방 위치에 다시 매핑된다. 그리고, 그 매핑 결과에 따라서, PCE에는, 그들 오디오 오브젝트의 위치 정보, 즉, 스피커 배치 정보로서 전방 위치를 나타내는 정보가 기술된다.

또한, 오디오 오브젝트 EL13이, 후방에 위치하는 후방 위치 오디오 엘리먼트로 되고, 그 오디오 오브젝트 EL13의 2차원 평면 상의 위치인 후방 위치를 나타내는 정보가 스피커 배치 정보로서 PCE에 기술된다.

동일하게, 오디오 오브젝트 EL14가, 측방에 위치하는 횡 위치 오디오 엘리먼트로 되고, 그 오디오 오브젝트 EL14의 2차원 평면 상의 위치인 횡 위치를 나타내는 정보가 스피커 배치 정보로서 PCE에 기술된다.

이러한 스피커 배치 정보는, 오디오 오브젝트의 오디오 데이터를 출력해야 할 스피커를 나타내는 정보, 즉, 오디오 오브젝트에 대응하는 스피커 배치에 관한 정보이다. 바꾸어 말하면, 스피커 배치 정보는, 각 오디오 오브젝트의 오디오 데이터가 어느 채널의 것인지, 즉, 오디오 오브젝트의 채널 매핑을 나타내는 정보이다.

이러한 스피커 배치 정보는, 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보라고도 할 수 있다. 이하에서는, 이러한 스피커 배치 정보를, 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보라고도 칭하기로 한다.

이렇게 PCE에 각 오디오 오브젝트의 2차원 평면 상의 위치 정보를 기술함으로써, 복호 장치(51)가 3D Audio에 대응하지 않다는 등, 어떠한 이유로 복호 장치(51)에 있어서 3D Audio 메타데이터를 이용할 수 없어도, 각 오디오 오브젝트의 2차원 평면 상의 위치는 특정할 수 있다.

따라서, 예를 들어 도 9에 나타내는 바와 같이, PCE에 기술된 2차원 평면 상의 위치 정보로부터, 각 오디오 오브젝트의 음상을 2차원 평면 상에 있어서의 올바른 위치에 정위시킬 수 있다. 또한, 도 9에 있어서 도 8에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절히 생략한다.

이 예에서는, 복호 장치(51)에서는, 오디오 오브젝트 EL11 내지 오디오 오브젝트 EL14의 2차원 평면 상의 위치를 나타내는 위치 정보(스피커 배치 정보)를 PCE로부터 판독함으로써, 그 위치 정보들에 의해 나타내는 위치에 각 오디오 오브젝트를 배치할 수 있다.

즉, 높이 방향의 정보를 얻을 수는 없지만, 3D Audio의 채널 매핑을 가능한 한 기존의 채널 매핑에 할당할 수 있다. 이에 의해, 오브젝트 베이스의 오디오 엘리먼트 데이터에 기초하는 소리를, 오디오 오브젝트의 평면 상에 있어서의 대략의 위치에 있는 스피커로부터 출력할 수 있다.

도 9에 나타내는 예에서는, 오디오 오브젝트 EL11 내지 오디오 오브젝트 EL14의 높이는 원래의 높이와는 달리, 유저 U11의 헤드부의 높이로 되어 있다. 그러나, 오디오 오브젝트 EL11 및 오디오 오브젝트 EL12는 유저 U11의 전방에 배치되어 있고, 오디오 오브젝트 EL13은 유저 U11의 후방에 배치되어 있으며, 오디오 오브젝트 EL14는 유저 U11의 좌측에 배치되어 있다.

이와 같이, 2차원 평면 상의 위치를 나타내는 위치 정보를 사용하면, 오디오 오브젝트 EL11 내지 오디오 오브젝트 EL14의 소리의 음상을, 원래의 방향과 대략 동일한 방향의 위치에 정위시키는 것이 가능하다.

<부호화 처리의 설명>

계속해서, 부호화 장치(11) 및 복호 장치(51)의 동작에 대하여 설명한다.

먼저, 도 10의 흐름도를 참조하여, 부호화 장치(11)에 의한 부호화 처리에 대하여 설명한다. 이 부호화 처리는, 부호화해야 할 오디오 데이터가 공급되면 개시된다.

스텝 S11에 있어서, 3D Audio 메타데이터 부호화부(21)는, 처리 대상으로 하는 현 프레임에 대하여, 전송해야 할 3D Audio 메타데이터가 있는지 여부를 판정한다.

예를 들어 외부로부터 3D Audio 메타데이터가 공급된 경우, 전송해야 할 3D Audio 메타데이터가 있다고 판정된다. 또한, 예를 들어 처리 대상의 현 프레임과 그 직전의 프레임이 3D Audio 메타데이터에 변화가 없는 경우 등, 전 프레임의 3D Audio 메타데이터를 참조시킬 때에는, 처리 대상의 현 프레임의 3D Audio 메타데이터는 공급되지 않는다.

스텝 S11에 있어서, 전송해야 할 3D Audio 메타데이터가 있다고 판정된 경우, 스텝 S12에 있어서 3D Audio 메타데이터 부호화부(21)는, 외부로부터 공급된 3D Audio 메타데이터를 부호화하는 3D Audio 메타데이터 부호화 처리를 행한다. 그리고, 3D Audio 메타데이터 부호화부(21)는, 3D Audio 메타데이터 부호화 처리에 의해 얻어진 부호화 3D Audio 메타데이터를 AAC 부호화부(22)에 공급한다.

스텝 S13에 있어서, AAC 부호화부(22)는, 3D Audio 메타데이터 부호화부(21)로부터 공급된 부호화 3D Audio 메타데이터, 전 프레임 참조 플래그, 및 외부로부터 공급된 오디오 데이터를 AAC 부호화하고, 1 프레임분의 AAC 프레임 데이터를 생성한다.

즉, AAC 부호화부(22)는, AAC 프레임 데이터의 DSE에, 값이 「0」인 전 프레임 참조 플래그를 저장한 후, 그 전 프레임 참조 플래그에 이어서 부호화 3D Audio 메타데이터를 DSE에 저장한다.

또한, AAC 부호화부(22)는, 외부로부터 공급된 1 프레임분의 오디오 데이터를 AAC 부호화 방식에 의해 부호화하고, AAC 오디오 엘리먼트 데이터로서 AAC 프레임 데이터의 SCE나 CPE, LFE 등에 저장한다.

또한, AAC 부호화부(22)는, 외부로부터 공급된 3D Audio 구성 요소 정보나, 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보(스피커 배치 정보)도 AAC 프레임 데이터의 PCE에 저장한다. 이에 의해, 예를 들어 도 5에 도시한 구성의 AAC 프레임 데이터가, 1 프레임분의 3D AAC 비트 스트림으로서 얻어진다.

AAC 부호화부(22)는, 이와 같이 하여 얻어진 1 프레임분의 3D AAC 비트 스트림을 출력(송신)하면, 그 후, 처리는 스텝 S17로 진행한다.

한편, 스텝 S11에 있어서, 전송해야 할 3D Audio 메타데이터가 없다고 판정된 경우, 스텝 S14에 있어서 AAC 부호화부(22)는, 복호측에 있어서 전 프레임의 3D Audio 메타데이터를 참조시킬 것인지 여부를 판정한다.

스텝 S14에 있어서 전 프레임의 3D Audio 메타데이터를 참조시킨다고 판정된 경우, 그 후, 처리는 스텝 S15로 진행한다.

스텝 S15에 있어서, AAC 부호화부(22)는, 전 프레임 참조 플래그의 값을 「1」로 하여, 외부로부터 공급된 오디오 데이터를 AAC 부호화한다.

즉, AAC 부호화부(22)는, AAC 프레임 데이터의 DSE에, 값이 「1」인 전 프레임 참조 플래그를 저장한다. 또한, AAC 부호화부(22)는, 외부로부터 공급된 1 프레임분의 오디오 데이터를 AAC 부호화 방식에 의해 부호화하고, AAC 오디오 엘리먼트 데이터로서 AAC 프레임 데이터의 SCE나 CPE, LFE 등에 저장한다.

또한, AAC 부호화부(22)는, 외부로부터 공급된 3D Audio 구성 요소 정보나, 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보도 AAC 프레임 데이터의 PCE에 저장한다.

AAC 부호화부(22)는, 이와 같이 하여 얻어진 AAC 프레임 데이터를 1 프레임분의 3D AAC 비트 스트림으로서 출력하면, 그 후, 처리는 스텝 S17로 진행한다.

이에 비해, 스텝 S14에 있어서 전 프레임의 3D Audio 메타데이터를 참조시키지 않는다고 판정된 경우, 그 후, 처리는 스텝 S16으로 진행한다.

스텝 S16에 있어서, AAC 부호화부(22)는, 전 프레임 참조 플래그의 값을 「0」으로 하여, 외부로부터 공급된 오디오 데이터를 AAC 부호화한다.

즉, AAC 부호화부(22)는, AAC 프레임 데이터의 DSE에, 값이 「0」인 전 프레임 참조 플래그를 저장함과 함께, 외부로부터 공급된 1 프레임분의 오디오 데이터를 AAC 부호화 방식에 의해 부호화하고, AAC 프레임 데이터에 저장한다. 또한, 이하에서는, 부호화된 오디오 데이터를 부호화 오디오 데이터라고도 칭하기로 한다.

스텝 S13의 처리, 스텝 S15의 처리 또는 스텝 S16의 처리가 행해지면, 그 후, 스텝 S17의 처리가 행해진다.

스텝 S17에 있어서, 부호화 장치(11)는, 부호화해야 할 오디오 데이터가 있는지 여부를 판정한다.

스텝 S17에 있어서, 아직 부호화해야 할 오디오 데이터가 있다고 판정된 경우, 처리는 스텝 S11로 되돌아가서, 상술한 처리가 반복해서 행해진다.

이에 비해, 스텝 S17에 있어서 부호화해야 할 오디오 데이터가 없다고, 즉, 전송할 콘텐츠의 오디오 데이터가 모두 부호화되어 출력되었다고 판정된 경우, 부호화 처리는 종료된다.

이상과 같이 하여 부호화 장치(11)는, 3D Audio 메타데이터를 DSE에 저장하고, 3D AAC 비트 스트림을 생성한다. 이렇게 함으로써 기존의 AAC 규격을 확장하고, 복호측에 있어서 3D Audio 메타데이터를 이용하여 3D Audio 재생을 행할 수 있게 된다. 이에 의해, 편리성을 향상시킬 수 있다.

또한, 전 프레임 참조 플래그를 저장함으로써, 복호측에 있어서 시간적으로 전 프레임의 3D Audio 메타데이터를 참조할 수 있으므로, 3D Audio 메타데이터의 양만큼 3D AAC 비트 스트림의 부호량을 삭감할 수 있다.

추가로 3D AAC 비트 스트림의 PCE에, 각 오디오 오브젝트의 2차원 평면 상에 있어서의 위치를 나타내는 위치 정보를 기술함으로써, 복호측에 있어서 3D Audio 메타데이터를 얻을 수 없어도, 각 오디오 오브젝트의 음상을 2차원 평면 상의 올바른 위치에 정위시킬 수 있다. 즉, 임장감을 손상시키지 않고 오디오 재생을 행할 수 있다.

<복호 처리의 설명>

이어서, 도 11의 흐름도를 참조하여, 복호 장치(51)에 의해 행해지는 복호 처리에 대하여 설명한다. 이 복호 처리는, 부호화 장치(11)에 의해 송신된 3D AAC 비트 스트림이 수신되면 개시된다.

스텝 S41에 있어서, AAC 복호부(61)는, 수신한 1 프레임분의 3D AAC 비트 스트림, 즉, AAC 프레임 데이터에 대하여 AAC 부호화 방식에 대응하는 복호 방식에 의한 복호 처리인 AAC 복호 처리를 행한다.

즉, AAC 복호부(61)는, PCE로부터 3D Audio 구성 요소 정보를 판독하여 상위의 제어부에 공급하거나, PCE로부터 각 오디오 오브젝트의 2차원 평면 상의 위치 정보, 즉, 스피커 배치 정보를 판독하여, 직접 또는 상위의 제어부를 통해 3D Audio 렌더러(64)에 공급하거나 한다.

또한, AAC 복호부(61)는, AAC 프레임 데이터에 저장되어 있는 부호화 오디오 데이터를 복호하고, 그 결과 얻어진 PCM 데이터인 오디오 데이터를 3D Audio 렌더러(64)에 공급한다.

스텝 S42에 있어서, AAC 복호부(61)는, AAC 프레임 데이터의 DSE에 3D Audio 메타데이터가 있는지 여부를 판정한다.

예를 들어 AAC 복호부(61)는, DSE의 선두에 기술된 전 프레임 참조 플래그의 값에 이어서 부호화 3D Audio 메타데이터가 기술되어 있는 경우, 3D Audio 메타데이터가 있다고 판정한다. 이 경우, 전 프레임 참조 플래그의 값은 「0」으로 되어 있다.

스텝 S42에 있어서 3D Audio 메타데이터가 있다고 판정된 경우, AAC 복호부(61)는, DSE로부터 부호화 3D Audio 메타데이터를 판독하여 3D Audio 메타데이터 복호부(62)에 공급하고, 그 후, 처리는 스텝 S43으로 진행한다.

스텝 S43에 있어서, 3D Audio 메타데이터 복호부(62)는, AAC 복호부(61)로부터 공급된 부호화 3D Audio 메타데이터를 복호하고, 그 결과 얻어진 3D Audio 메타데이터를 3D Audio 렌더러(64)에 공급한다. 이와 같이 하여 3D Audio 메타데이터가 얻어지면, 그 후, 처리는 스텝 S47로 진행한다.

또한, 스텝 S42에 있어서 3D Audio 메타데이터가 없다고 판정된 경우, 스텝 S44에 있어서 AAC 복호부(61)는, DSE의 선두에 기술되어 있는 전 프레임 참조 플래그의 값이 「1」인지 여부를 판정한다.

스텝 S44에 있어서 전 프레임 참조 플래그의 값이 「1」이 아닌, 즉, 전 프레임 참조 플래그의 값이 「0」이지만 DSE로부터 3D Audio 메타데이터가 얻어지지 않은 경우, 그 후, 처리는 스텝 S48로 진행한다.

이에 비해, 스텝 S44에 있어서 전 프레임 참조 플래그의 값이 「1」이라고 판정된 경우, 그 후, 처리는 스텝 S45로 진행한다. 이 경우, DSE에는 부호화 3D Audio 메타데이터가 저장되어 있지 않다.

스텝 S45에 있어서, AAC 복호부(61)는, 과거의 3D Audio 메타데이터가 있는지 여부를 판정한다. 즉, 동일한 콘텐츠, 즉, 복호 대상에 3D AAC 비트 스트림에 있어서의 처리 대상의 현 프레임보다도 시간적으로 전 프레임에 대하여, DSE로부터 판독된 3D Audio 메타데이터가 있을 경우, 과거의 3D Audio 메타데이터가 있다고 판정된다.

스텝 S45에 있어서 과거의 3D Audio 메타데이터가 있다고 판정된 경우, AAC 복호부(61)는, DSE로부터 판독된 3D Audio 메타데이터가 있는 과거의 프레임 중 현 프레임에 가장 시간적으로 가까운 프레임의 3D Audio 메타데이터, 즉, 마지막에 사용된 3D Audio 메타데이터의 출력을 3D Audio 메타데이터 복호부(62)에 지시하고, 그 후, 처리는 스텝 S47로 진행한다.

이 경우, 3D Audio 메타데이터 복호부(62)는, AAC 복호부(61)의 지시에 따라서 과거의 프레임에서 사용한 3D Audio 메타데이터를 3D Audio 렌더러(64)에 공급한다.

구체적으로는, 예를 들어 도 6에 나타낸 예에 있어서 프레임 (N+1)이 현 프레임이라고 하면, 3D Audio 메타데이터 복호부(62)는, 프레임 N의 3D Audio 메타데이터 (N)을 3D Audio 렌더러(64)에 공급한다.

한편, 스텝 S45에 있어서 과거의 3D Audio 메타데이터가 없다고 판정된 경우, 어떠한 이유에 의해, 3D AAC 비트 스트림으로부터 현 프레임에서 사용하는 3D Audio 메타데이터가 얻어지지 않았으므로, 그 후, 처리는 스텝 S46으로 진행한다.

스텝 S46에 있어서 AAC 복호부(61)는, 3D AAC 비트 스트림 이외로부터 취득된 3D Audio 메타데이터가 있는지 여부를 판정한다. 즉, 3D Audio 메타데이터 취득부(63)에 의해 취득된 외부 취득 3D Audio 메타데이터가 있는지 여부가 판정된다.

스텝 S46에 있어서, 취득된 3D Audio 메타데이터가 없다고 판정된 경우, 그 후, 처리는 스텝 S48로 진행한다.

또한, 스텝 S46에 있어서, 취득된 3D Audio 메타데이터가 있다고 판정된 경우, AAC 복호부(61)는, 취득한 3D Audio 메타데이터의 출력을 3D Audio 메타데이터 취득부(63)에 지시하고, 그 후, 처리는 스텝 S47로 진행한다.

이 경우, 3D Audio 메타데이터 취득부(63)는, 외부로부터 취득하거나 자신이 생성하거나 하여 얻어진 외부 취득 3D Audio 메타데이터를 3D Audio 렌더러(64)에 공급한다.

스텝 S43의 처리가 행해졌거나, 스텝 S45에 있어서 과거의 3D Audio 메타데이터가 있다고 판정되었거나, 또는 스텝 S46에 있어서 취득된 3D Audio 메타데이터가 있다고 판정되면, 그 후, 스텝 S47의 처리가 행해진다.

스텝 S47에 있어서, 3D Audio 렌더러(64)는, 3D Audio 메타데이터 복호부(62) 또는 3D Audio 메타데이터 취득부(63)로부터 공급된 3D Audio 메타데이터와, AAC 복호부(61)로부터 공급된 오디오 데이터에 기초하여 렌더링을 행한다.

그리고, 3D Audio 렌더러(64)는, 렌더링에 의해 얻어진 3D Audio 재생을 실현하기 위한 현 프레임의 재생 데이터를 출력하고, 그 후, 처리는 스텝 S49로 진행한다.

또한, 스텝 S44에 있어서 전 프레임 참조 플래그의 값이 「1」이 아니라고 판정되었거나, 또는 스텝 S46에 있어서 취득된 3D Audio 메타데이터가 없다고 판정된 경우, 스텝 S48의 처리가 행해진다.

즉, 스텝 S48에 있어서 3D Audio 렌더러(64)는, AAC 복호부(61)로부터 공급된 오디오 데이터에 기초하여, 통상의 AAC 규격에 의해 정해진 렌더링을 행하고, 그 결과 얻어진 재생 데이터를 출력한다.

이 경우, 3D Audio 렌더러(64)는, 적절히, PCE로부터 판독된 각 오디오 오브젝트의 2차원 평면 상의 위치 정보(스피커 배치 정보)에 기초하여, 각 오디오 오브젝트의 음상이 위치 정보에 의해 나타내는 2차원 평면 상의 위치에 정위하게 각 채널의 오디오 데이터를 재생 데이터로서 생성한다. 이에 의해, 3D Audio 메타데이터가 얻어지지 않고, 오디오 오브젝트(음원)의 높이 방향의 음상 정위 제어를 행할 수 없어도, 각 오디오 오브젝트의 음상을 2차원 평면 상의 올바른 위치에 정위시킬 수 있다.

이와 같이 하여 현 프레임의 재생 데이터가 출력되면, 그 후, 처리는 스텝 S49로 진행한다.

스텝 S47의 처리 또는 스텝 S48의 처리가 행해져서 1 프레임분의 재생 데이터가 출력되면, 스텝 S49에 있어서 AAC 복호부(61)는, 복호해야 할 3D AAC 비트 스트림이 있는지 여부를 판정한다.

예를 들어 스텝 S49에서는, 수신된 3D AAC 비트 스트림이 아직 모두 복호되지 않은 경우, 복호해야 할 3D AAC 비트 스트림이 있다고 판정된다.

스텝 S49에 있어서 복호해야 할 3D AAC 비트 스트림이 있다고 판정된 경우, 처리는 스텝 S41로 되돌아가서, 상술한 처리가 반복해서 행해진다.

이에 비해, 스텝 S49에 있어서 복호해야 할 3D AAC 비트 스트림이 없다고 판정된 경우, 복호 처리는 종료한다.

이상과 같이 하여 복호 장치(51)는, DSE로부터 3D Audio 메타데이터를 판독하여, 판독한 3D Audio 메타데이터를 사용하여 렌더링을 행한다. 이렇게 함으로써 기존의 AAC 규격을 확장하여 3D Audio 재생을 행할 수 있어, 편리성을 향상시킬 수 있다.

또한, 3D AAC 비트 스트림의 PCE에, 각 오디오 오브젝트의 2차원 평면 상에 있어서의 위치를 나타내는 위치 정보가 기술되어 있으므로, 3D Audio 메타데이터를 얻을 수 없어도, 각 오디오 오브젝트의 음상을 2차원 평면 상의 올바른 위치에 정위시킬 수 있다. 즉, 임장감을 손상시키지 않고 오디오 재생을 행할 수 있다.

<제2 실시 형태>

<3D Audio 메타데이터의 분할 전송에 대하여>

그런데, 오디오 오브젝트의 수, 즉, 오브젝트 오디오 수가 많을수록, 3D Audio 메타데이터의 데이터양(부호량)은 많아진다.

그 때문에, 3D Audio 메타데이터의 데이터양이 많아지면, 3D Audio 메타데이터의 사이즈(데이터양)가 AAC 규격에서 정의되어 있는 DSE의 상한 사이즈를 초과해버리는 경우가 있다. 또한, 하나의 프레임에서 3D Audio 메타데이터의 저장에 필요해지는 DSE의 개수가, AAC 규격에서 정의되어 있는 DSE의 상한 개수를 초과해버리는 경우도 있다.

그래서, 본 기술에서는, 3D Audio 메타데이터의 데이터양이 많은 경우에는, 복수의 각 프레임의 3D Audio 메타데이터를 전송하는 것이 아니라, 그들 3D Audio 메타데이터를 적절히 씨닝하여, 3D Audio 메타데이터의 대표값을 그들 복수의 프레임의 DSE에 저장하여 전송하도록 하였다. 즉, 복수의 프레임에 걸쳐 대표값을 송신하도록 하였다.

예를 들어 도 12에 나타내는 바와 같이, 하나의 프레임의 AAC 프레임 데이터에 세 DSE를 마련할 수 있다고 하자. 또한, 도 12에 있어서 문자 「DSE1」 내지 「DSE3」의 각각이 기재된 사각형은, 1 프레임분의 AAC 프레임 데이터 내에 마련된 DSE의 각각을 나타내고 있다. 이하에서는, 그들 DSE를 DSE 1 내지 DSE 3이라고도 칭하기로 한다.

이 예에서는, 1 프레임분의 3D Audio 메타데이터의 데이터양이 많아서, 그 3D Audio 메타데이터가 첫째 DSE 1에 전부 저장할 수는 없는 상태로 되어 있다.

이러한 경우, 부호화 장치(11)는, 3D Audio 메타데이터를 세 데이터로 분할한다. 여기에서는, 3D Audio 메타데이터를 분할하여 얻어진 세 데이터를, 분할 3D Audio 메타데이터 (1) 내지 분할 3D Audio 메타데이터 (3)이라고 칭하기로 한다. 또한, 이하, 3D Audio 메타데이터를 분할하여 얻어진 각 데이터를 특별히 구별할 필요가 없을 경우, 분할 3D Audio 메타데이터라고도 칭하기로 한다.

부호화 장치(11)는, 분할에 의해 얻어진 분할 3D Audio 메타데이터 (1) 내지 분할 3D Audio 메타데이터 (3)의 각각을, DSE 1 내지 DSE 3의 각각에 저장한다.

이때, 부호화 장치(11)는, 3D Audio 메타데이터가 분할되었다는 것과, 어느 분할 3D Audio 메타데이터가 선두로부터 몇번째 데이터인지를 특정할 수 있도록, 프레임 내 DSE 분할 카운터와, 프레임 내 DSE 분할 종단 플래그를 생성한다.

프레임 내 DSE 분할 카운터는, 1 프레임분의 AAC 프레임 데이터에 있어서의, 분할 3D Audio 메타데이터가 저장된 몇번째 DSE인지를 나타내는 정보이다.

바꾸어 말하면, 프레임 내 DSE 분할 카운터는, DSE에 저장된 분할 3D Audio 메타데이터가, 1 프레임분의 AAC 프레임의 DSE에 저장된 몇번째 분할 3D Audio 메타데이터인지를 나타내는 정보라고도 할 수 있다.

예를 들어, 프레임 내 DSE 분할 카운터의 값이 「i-1」(1≤i)인 DSE에 저장되어 있는 분할 3D Audio 메타데이터는, 1 프레임분의 AAC 프레임의 DSE에 저장된 선두로부터 i번째 분할 3D Audio 메타데이터가 된다.

또한, 프레임 내 DSE 분할 종단 플래그는, 1 프레임분의 AAC 프레임 데이터에 있어서 차례로 배열된 DSE 중, 분할 3D Audio 메타데이터가 저장되어 있는 최후의 DSE인지 여부를 나타내는 플래그 정보이다.

구체적으로는, 프레임 내 DSE 분할 종단 플래그의 값이 「0」인 경우, 그 DSE는 분할 3D Audio 메타데이터가 저장되어 있는 최후의 DSE가 아님을 나타내고 있다.

이에 비해, 프레임 내 DSE 분할 종단 플래그의 값이 「1」인 경우, 그 DSE는 분할 3D Audio 메타데이터가 저장되어 있는 AAC 프레임 데이터 내의 최후의 DSE임을 나타내고 있다.

부호화 장치(11)는, 각 DSE에 분할 3D Audio 메타데이터와 함께 프레임 내 DSE 분할 카운터 및 프레임 내 DSE 분할 종단 플래그도 저장한다.

즉, 이 예에서는 1번째 DSE 1에는 1번째 분할 3D Audio 메타데이터임을 나타내는, 값이 「0」인 프레임 내 DSE 분할 카운터와, 최후의 DSE가 아님을 나타내는, 값이 「0」인 프레임 내 DSE 분할 종단 플래그와, 분할 3D Audio 메타데이터 (1)이 저장된다.

또한, 2번째 DSE 2에는 2번째 분할 3D Audio 메타데이터임을 나타내는, 값이 「1」인 프레임 내 DSE 분할 카운터와, 최후의 DSE가 아님을 나타내는, 값이 「0」인 프레임 내 DSE 분할 종단 플래그와, 분할 3D Audio 메타데이터 (2)가 저장된다. 추가로, 3번째 DSE 3에는 3번째 분할 3D Audio 메타데이터임을 나타내는, 값이 「2」인 프레임 내 DSE 분할 카운터와, 최후의 DSE임을 나타내는, 값이 「1」인 프레임 내 DSE 분할 종단 플래그와, 분할 3D Audio 메타데이터 (3)이 저장된다.

이렇게 프레임 내 DSE 분할 카운터와 프레임 내 DSE 분할 종단 플래그를 저장함으로써, 복호측에서는 분할 3D Audio 메타데이터를 판독하여, 그들 분할 3D Audio 메타데이터를 정확하게 결합하고, 원래의 3D Audio 메타데이터를 얻을 수 있다.

또한, 3D Audio 메타데이터가 1 프레임분의 AAC 프레임 데이터에 전부 저장되지는 못할 경우, 부호화 장치(11)에서는, 예를 들어 도 13에 나타내는 바와 같이, 3D Audio 메타데이터로서의 대표값을 복수 프레임분의 AAC 프레임 데이터로 분할하여 저장한다. 또한, 여기에서는, 설명을 간단하게 하기 위해서 1 프레임에 대하여 하나의 DSE가 마련되는 것으로 한다.

도 13에 있어서, 화살표 A51 내지 화살표 A55의 각각에 의해 나타내는 사각형이 프레임 (N-1) 내지 프레임 (N+3)의 각각의 AAC 프레임 데이터를 나타내고 있다. 또한, 여기서는, 원래의 프레임 (i)(단, N-1≤i≤N+3)의 3D Audio 메타데이터를 3D Audio 메타데이터 (i)라고도 기재하기로 한다.

이 예에서는, 원래는 프레임 (N-1) 내지 프레임 (N+3)에 대하여, 3D Audio 메타데이터 (N-1) 내지 3D Audio 메타데이터 (N+3)이 준비되어 있었다. 그러나, 3D Audio 메타데이터 (N) 내지 3D Audio 메타데이터 (N+3)에 대하여는, 데이터양이 많기 때문에, 이대로는 그들 3D Audio 메타데이터가, 대응하는 1 프레임분의 DSE에 전부 저장할 수는 없는 상태로 되어 있다.

그래서, 부호화 장치(11)는, 프레임 (N) 내지 프레임 (N+3)에 대한 3D Audio 메타데이터를 얻기 위한 새로운 하나의 3D Audio 메타데이터를 생성한다. 바꾸어 말하면, 몇몇 3D Audio 메타데이터가 씨닝되어 대표적인 3D Audio 메타데이터가 선택된다.

구체적으로는, 예를 들어 부호화 장치(11)는, 3D Audio 메타데이터 (N) 내지 3D Audio 메타데이터 (N+2)를 대표하는 하나의 3D Audio 메타데이터를 대표값으로서 결정짓는다.

여기서, 대표값은, 예를 들어 3D Audio 메타데이터 (N) 내지 3D Audio 메타데이터 (N+2) 중 어느 하나의 3D Audio 메타데이터로 되어도 되고, 3D Audio 메타데이터 (N) 내지 3D Audio 메타데이터 (N+2)의 평균값이 대표값으로 되어도 된다.

이 경우, 예를 들어 하나의 오디오 오브젝트에 주목하면, 3D Audio 메타데이터로서의 오디오 오브젝트의 프레임 (N) 내지 프레임 (N+2)의 위치 정보의 평균값 등이, 그 오디오 오브젝트의 3D Audio 메타데이터로서의 대표값으로 된다.

그 밖에도, 예를 들어 복수의 오디오 오브젝트가 있고, 그들 복수의 오디오 오브젝트 중의 하나의 특정한 오디오 오브젝트가 가장 중요하고, 그 특정한 오디오 오브젝트의 프레임 (N+1)에 있어서의 움직임이 가장 중요하다고 하자.

그러한 경우, 예를 들어 특정한 오디오 오브젝트의 3D Audio 메타데이터 (N+1)로서의 위치 정보가, 그 특정한 오디오 오브젝트의 대표값으로 된다. 또한, 다른 모든 오디오 오브젝트에 대해서도, 그들 오디오 오브젝트의 3D Audio 메타데이터 (N+1)로서의 위치 정보의 각각이, 그들 오디오 오브젝트의 대표값의 각각으로 된다.

추가로, 예를 들어 복수의 오디오 오브젝트가 있고, 그들 복수의 오디오 오브젝트 중의 1개의 특정한 오디오 오브젝트가 가장 중요하고, 그 특정한 오디오 오브젝트의 프레임 (N+1)에 있어서의 움직임이 가장 중요하다고 하자. 그러한 경우에, 예를 들어 그 특정한 오디오 오브젝트의 3D Audio 메타데이터 (N+1)로서의 위치 정보가, 모든 오디오 오브젝트의 대표값으로 되게 해도 된다.

또 다른 예로서, 복수의 오디오 오브젝트의 각각의 가장 움직임이 중요한 프레임의 각각에 있어서의 위치 정보의 평균값이 구해지고, 얻어진 평균값이 모든 오디오 오브젝트에 공통의 대표값으로 되게 해도 된다.

부호화 장치(11)는, 3D Audio 메타데이터 (N) 내지 3D Audio 메타데이터 (N+2)의 대표값을 결정하면, 분할하여 하나의 3D Audio 메타데이터를 송신하는 복수 프레임을 포함하는 기간(이하, 분할 전송 기간이라고도 칭함)의 종단의 프레임의 3D Audio 메타데이터를 종단값으로서 생성한다.

예를 들어, 이 예에서는 프레임 (N)으로부터 프레임 (N+3)까지의 기간이 분할 전송 기간으로 되어 있으므로, 그 분할 전송 기간의 종단의 프레임은 프레임 (N+3)이 된다. 그래서, 부호화 장치(11)는, 3D Audio 메타데이터 (N+3)을 그대로 종단값으로 하는 등, 어떠한 방법에 의해 종단값을 정한다.

또한, 부호화 장치(11)는, 분할 전송 기간 내의 프레임 중 대표값을 적용하는 프레임을 대표값 적용 프레임으로 하여, 그의 대표값 적용 프레임을 나타내는 적용 프레임 인덱스를 생성한다. 여기서, 대표값 적용 프레임이란, 복호측에 있어서 대표값이 그대로 3D Audio 메타데이터로서 사용되는 프레임이다.

예를 들어 도 13의 예에 있어서, 대표값 적용 프레임이 프레임 (N+1)인 경우, 부호화 장치(11)는, 그 프레임 (N+1)을 나타내는 정보를 적용 프레임 인덱스로서 생성한다.

구체적으로는, 예를 들어 대표값 적용 프레임이 분할 전송 기간에 있어서의 선두로부터 i번째(1≤i)의 프레임인 경우, 적용 프레임 인덱스의 값은 「i-1」로 된다. 따라서, 도 13에 나타내는 예에서는, 분할 전송 기간의 선두로부터 2번째 프레임 (N+1)이 대표값 적용 프레임이므로, 적용 프레임 인덱스의 값은 「1」이 된다.

이상과 같이 하여 분할 전송 기간의 대표값, 종단값 및 적용 프레임 인덱스가 얻어지면, 부호화 장치(11)는, 대표값과 종단값을 분할 전송 기간의 3D Audio 메타데이터로 함과 함께, 그 3D Audio 메타데이터를 분할한다.

즉, 부호화 장치(11)는, 분할 전송 기간의 3D Audio 메타데이터를, 그 분할 전송 기간에 포함되는 프레임의 수의 분할 3D Audio 메타데이터로 분할한다.

이 예에서는, 분할 전송 기간을 구성하는 프레임수는 4이므로, 3D Audio 메타데이터는, 문자 「분할 3D Audio 메타데이터 (1)」 내지 「분할 3D Audio 메타데이터 (4)」에 의해 나타내는 네 분할 3D Audio 메타데이터로 분할된다.

또한, 이하, 문자 「분할 3D Audio 메타데이터 (1)」 내지 「분할 3D Audio 메타데이터 (4)」에 의해 나타내는 분할 3D Audio 메타데이터를, 분할 3D Audio 메타데이터 (1) 내지 분할 3D Audio 메타데이터 (4)라고도 칭하기로 한다.

분할 3D Audio 메타데이터가 얻어지면, 부호화 장치(11)는, 그들 분할 3D Audio 메타데이터를 각 프레임의 AAC 프레임 데이터의 DSE에 저장하고, 출력한다.

여기에서는, 화살표 A61 내지 화살표 A65의 각각에 의해 나타내는 사각형은, 실제로 부호화 장치(11)로부터 출력되는 프레임 (N-1) 내지 프레임 (N+3)의 각각의 AAC 프레임 데이터를 나타내고 있다.

이 예에서는, 프레임 (N-1)의 AAC 프레임 데이터에는, 분할되지 않은 3D Audio 메타데이터 (N-1)이 그대로 DSE에 저장되어 있다.

한편, 프레임 (N)의 AAC 프레임 데이터에서는, 분할 3D Audio 메타데이터 (1)과 적용 프레임 인덱스가 DSE에 저장되고, 프레임 (N+1)의 AAC 프레임 데이터에서는, 분할 3D Audio 메타데이터 (2)가 DSE에 저장된다. 또한, 프레임 (N+2)의 AAC 프레임 데이터에서는, 분할 3D Audio 메타데이터 (3)이 DSE에 저장되고, 프레임 (N+3)의 AAC 프레임 데이터에서는, 분할 3D Audio 메타데이터 (4)가 DSE에 저장된다.

또한, 적용 프레임 인덱스는, 분할 전송 기간 내의 프레임 DSE라면, 어느 프레임의 DSE에 저장되어도 된다.

추가로, 이러한 3D AAC 비트 스트림을 수신한 복호 장치(51)에서는, 예를 들어 도 14에 도시한 바와 같이 복호가 행해진다. 또한, 도 14에 있어서 도 13에 있어서의 경우와 대응하는 부분에 대하여는, 그 설명은 적절히 생략한다.

도 14에 나타내는 예에서는, 복호 장치(51)가 있어서 화살표 A71 내지 화살표 A75의 각각에 의해 나타내는 AAC 프레임 데이터를 포함하는 3D AAC 비트 스트림이 수신된다.

여기서, 화살표 A71 내지 화살표 A75의 각각에 나타낸 각 프레임의 AAC 프레임 데이터는, 도 13의 화살표 A61 내지 화살표 A65의 각각에 나타낸 각 프레임의 AAC 프레임 데이터에 대응한다.

복호 장치(51)는, 3D Audio 메타데이터의 분할이 행해지지 않은 프레임 (N-1)에 대하여는, 화살표 A81에 나타내는 바와 같이, 그 프레임 (N-1)의 AAC 프레임 데이터로부터 3D Audio 메타데이터 (N-1)을 판독한다. 그리고, 복호 장치(51)는, 판독한 3D Audio 메타데이터 (N-1)에 기초하여 렌더링을 행한다.

이에 비해, 3D Audio 메타데이터의 분할이 행해진 프레임 (N) 내지 프레임 (N+3)에 대하여는, 분할 3D Audio 메타데이터 (1) 내지 분할 3D Audio 메타데이터 (4)에 기초하여, 그들 프레임의 3D Audio 메타데이터가 생성된다.

즉, 복호 장치(51)의 AAC 복호부(61)는, 프레임 (N) 내지 프레임 (N+3)의 DSE의 각각으로부터, 그들 프레임에 대한 3D Audio 메타데이터를 분할하여 얻어진 분할 3D Audio 메타데이터 (1) 내지 분할 3D Audio 메타데이터 (4)의 각각을 판독한다. 그리고, AAC 복호부(61)는, 판독한 그들 분할 3D Audio 메타데이터 (1) 내지 분할 3D Audio 메타데이터 (4)를 결합하여, 하나의 부호화 3D Audio 메타데이터로 한다.

그리고, 복호 장치(51)는, 얻어진 부호화 3D Audio 메타데이터를 복호함으로써, 대표값과 종단값을 얻음과 함께, DSE로부터 적용 프레임 인덱스를 판독한다. 그리고, 복호 장치(51)는, 얻어진 대표값, 종단값, 및 적용 프레임 인덱스에 기초하여 보간 처리를 행함으로써, 분할 전송 기간 내의 프레임의 3D Audio 메타데이터를 생성한다.

구체적으로는, 복호 장치(51)는, 화살표 A83에 나타내는 바와 같이, 대표값을, 적용 프레임 인덱스에 의해 나타내는 프레임 (N+1)의 3D Audio 메타데이터로 한다.

또한, 복호 장치(51)는, 화살표 A82에 나타내는 바와 같이 프레임 (N-1)의 3D Audio 메타데이터 (N-1)과, 프레임 (N+1)의 3D Audio 메타데이터인 대표값에 기초하여, 보간 처리에 의해 프레임 (N)의 3D Audio 메타데이터 (N)를 생성한다.

또한 복호 장치(51)는, 화살표 A85에 나타내는 바와 같이 종단값을 그대로 프레임 (N+3)의 3D Audio 메타데이터로 한다. 복호 장치(51)는, 화살표 A84로 나타내는 바와 같이 프레임 (N+1)의 3D Audio 메타데이터인 대표값과, 프레임 (N+3)의 3D Audio 메타데이터인 종단값에 기초하여, 보간 처리에 의해 프레임 (N+2)의 3D Audio 메타데이터 (N+2)를 생성한다.

복호 장치(51)는, 프레임 (N) 내지 프레임 (N+3)에서는, 이와 같이 하여 얻어진 3D Audio 메타데이터 (N) 내지 3D Audio 메타데이터 (N+3)을 사용하여 렌더링을 행한다.

복호 장치(51)에서는, 이상과 같이 하여 복수 프레임에 걸쳐 분할하여 저장된 분할 3D Audio 메타데이터를 판독하고, 분할 전송 기간의 각 프레임의 3D Audio 메타데이터를 얻는다. 이렇게 함으로써, 효율적으로 3D Audio 메타데이터를 전송하여 편리성을 향상시킴과 함께, 임장감이 있는 3D Audio 재생을 실현할 수 있다.

또한, 여기에서는 분할 전송 기간의 3D Audio 메타데이터에 종단값이 포함되는 예에 대하여 설명하였지만, 종단값이 포함되지 않도록 해도 된다. 그러한 경우에는, 분할 전송 기간의 종단 직후의 프레임의 3D Audio 메타데이터를 종단값으로서 사용하게 하면 된다.

이상과 같이, 1 프레임분의 AAC 프레임 데이터에 있어서, 3D Audio 메타데이터를 복수의 분할 3D Audio 메타데이터로 분할하여 복수의 DSE에 저장하는 경우, 복호측에 있어서 그 사실을 인식할 수 있도록 할 필요가 있다.

그를 위해서, 부호화측에서는, 상술한 프레임 내 DSE 분할 카운터나 프레임 내 DSE 분할 종단 플래그를 포함하는, 프레임 내, 즉, AAC 프레임 데이터 내에서의 3D Audio 메타데이터의 분할에 관한 정보인 프레임 내 DSE 분할 정보가 DSE에 기술된다.

이러한 프레임 내 DSE 분할 정보의 신택스는, 예를 들어 도 15에 도시한 바와 같이 된다. 도 15에 나타내는 예에서는, 문자 「dse_div_info()」는, 프레임 내 DSE 분할 정보가 저장된 함수를 나타내고 있고, 이 함수는 각 프레임의 3D Audio 메타데이터에 존재한다. 여기에서는, 프레임 내 DSE 분할 정보는 DSE마다 존재한다.

또한, 프레임 내 DSE 분할 정보에는, 문자 「dse_div_cnt」에 의해 나타내는 프레임 내 DSE 분할 카운터, 및 문자 「dse_div_terminate」에 의해 나타내는 프레임 내 DSE 분할 종단 플래그가 포함되어 있다.

상술한 바와 같이 프레임 내 DSE 분할 카운터는, 대응하는 DSE가 동일한 프레임에 있어서의 분할 3D Audio 메타데이터가 저장되어 있는 DSE 중 몇번째 것인지를 나타내는, 0으로부터 시작되는 카운터 정보이다. 여기에서는, 프레임 내 DSE 분할 카운터는 3 비트의 정보이므로, 1 프레임 내에서는, 3D Audio 메타데이터 또는 분할 3D Audio 메타데이터를, 최대로 8개의 분할 3D Audio 메타데이터로 분할하는 것이 가능하게 되어 있다. 즉, 최대로 8개의 DSE를 마련할 수 있다.

또한, 프레임 내 DSE 분할 종단 플래그는, 값이 「0」으로 되어 있을 때에는 대응하는 DSE가 프레임 내에 있어서의, 분할 3D Audio 메타데이터가 저장된 최후의 DSE가 아님을 나타내고 있다. 이에 비해, 프레임 내 DSE 분할 종단 플래그의 값이 「1」로 되어 있을 때에는, 대응하는 DSE가 프레임 내에 있어서의, 분할 3D Audio 메타데이터가 저장된 최후의 DSE임을 나타내고 있다.

또한, 하나의 3D Audio 메타데이터를 분할하여 얻어진 분할 3D Audio 메타데이터를 복수의 프레임의 DSE에 저장하는 경우, 복호측에 있어서 그것을 인식할 수 있도록 할 필요가 있다.

그 때문에, 부호화측에서는, 프레임 내 DSE 분할 정보에 있어서의 경우와 동일하게, 프레임간에서의 3D Audio 메타데이터의 분할, 즉, 복수 프레임에 대한 3D Audio 메타데이터의 분할에 관한 정보인 프레임 분할 정보가 DSE에 기술된다.

이러한 프레임 분할 정보의 신택스는, 예를 들어 도 16에 나타내는 바와 같이 된다.

도 16에 나타내는 예에서는, 문자 「frame_div_info()」는, 프레임 분할 정보가 저장된 함수를 나타내고 있고, 이 함수는 각 프레임의 3D Audio 메타데이터에 존재한다. 여기에서는, 프레임 분할 정보는 1 프레임에 대하여 하나 존재한다.

프레임 분할 정보에는, 문자 「frm_div_mode」에 의해 나타내는 프레임 분할 모드 정보가 포함되어 있다.

이 프레임 분할 모드 정보는, 복수 프레임에 걸쳐서 하나의 3D Audio 메타데이터를 전송하는, 즉, 복수 프레임의 DSE에 하나의 3D Audio 메타데이터를 분할하여 저장하는 프레임 분할 모드인지 여부를 나타내는 정보이다.

여기에서는, 프레임 분할 모드 정보의 값이 「0」인 경우에는, 프레임 분할 모드가 아닌, 즉, 1 프레임분의 3D Audio 메타데이터가 1 프레임분의 DSE에 저장되는 것을 나타내고 있다.

이에 비해, 프레임 분할 모드 정보의 값이 「1」인 경우에는, 프레임 분할 모드인, 즉, 복수 프레임의 DSE에 하나의 3D Audio 메타데이터가 분할되어 저장되는 것을 나타내고 있다.

또한, 프레임 분할 모드 정보의 값이 「1」인 경우에는, 프레임 분할 정보에는, 또한 문자 「frm_div_cnt」에 의해 나타내는 프레임 분할 카운터와, 문자 「frm_div_terminate」에 의해 나타내는 프레임 분할 종단 플래그가 저장되어 있다.

프레임 분할 카운터는, 대응하는 프레임이 분할 전송 기간을 구성하는 프레임 중의 선두로부터 몇번째 것인지를 나타내는, 0으로부터 시작되는 카운터 정보이다. 여기에서는, 프레임 분할 카운터는 3 비트의 정보이므로, 분할 전송 기간은 최대로 8 프레임의 기간으로 하는 것이 가능하게 되어 있다. 즉, 하나의 3D Audio 메타데이터를 8 프레임에 걸쳐 전송하는 것이 가능하게 되어 있다.

또한, 프레임 분할 종단 플래그는, 값이 「0」으로 되어 있을 때에는 대응하는 프레임이 분할 전송 기간에 있어서의 마지막 프레임이 아님을 나타내고 있다. 이에 비해, 프레임 분할 종단 플래그의 값이 「1」로 되어 있을 때에는, 대응하는 프레임이 분할 전송 기간에 있어서의 최후(종단)의 프레임임을 나타내고 있다.

또한, 프레임 분할 카운터의 값이 「0」인 경우, 프레임 분할 정보에는 문자 「apply_frm_Index」에 의해 나타내는 적용 프레임 인덱스도 저장되어 있다. 즉, 적용 프레임 인덱스는, 분할 전송 기간에 있어서의 최초(선두)의 프레임의 DSE에 저장된다.

이 적용 프레임 인덱스는 대표값 적용 프레임을 나타내는 정보이며, 여기에서는 대표값 적용 프레임의 프레임 분할 카운터의 값이, 적용 프레임 인덱스의 값으로 되어 있다.

또한, 분할 프레임수, 즉, 분할 전송 기간을 구성하는 프레임수를 F라 하였을 때, 적용 프레임 인덱스의 값이 F보다도 1만큼 작은 (F-1)인 경우에는, 3D Audio 메타데이터로서 대표값 또는 종단값만이 포함되어 있다.

바꾸어 말하면, 적용 프레임 인덱스에 의해 나타내는 프레임이 분할 전송 기간의 종단의 프레임인 경우에는, 종단값이 대표값이 되므로, 대표값 또는 종단값만이 3D Audio 메타데이터로서 전송되게 된다.

1 프레임분의 AAC 프레임 데이터에는, 이상에서 설명한 프레임 내 DSE 분할 정보와 프레임 분할 정보가 저장되게 된다. 이하에서는, 프레임 내 DSE 분할 정보나 프레임 분할 정보를 포함하는 정보를 분할 정보라고도 칭하기로 한다. 단, AAC 프레임 데이터의 각 DSE에 분할 정보가 저장되고, 분할 정보에는, 프레임 분할 정보는 반드시 포함되지 않아도 되지만, 프레임 내 DSE 분할 정보는 반드시 포함되어 있게 된다.

그러한 경우, AAC 프레임 데이터에 저장되는 분할 정보의 신택스는, 예를 들어 도 17에 나타내는 바와 같이 된다.

도 17에 나타내는 예에서는, 문자 「div_info()」는 분할 정보가 저장된 함수를 나타내고 있고, 이 함수는 각 프레임의 3D Audio 메타데이터에 존재한다.

또한, 여기서는 분할 정보로서, 문자 「dse_div_info()」에 의해 나타내는 프레임 내 DSE 분할 정보가 포함되어 있다. 또한, 그 프레임 내 DSE 분할 정보에 포함되어 있는 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값이 「0」인 경우, 분할 정보로서, 추가로 문자 「frame_div_info()」에 의해 나타내는 프레임 분할 정보가 포함되어 있다.

즉, AAC 프레임 데이터에 있어서의 최초(선두)의 DSE에는, 분할 정보로서 프레임 내 DSE 분할 정보와 프레임 분할 정보가 포함되어 있고, AAC 프레임 데이터에 있어서의 2번째 이후의 DSE에는, 분할 정보로서 프레임 내 DSE 분할 정보만이 포함되어 있다.

도 17에 나타내는 바와 같이 AAC 프레임 데이터에 분할 정보가 저장되는 경우, 하나의 3D Audio 메타데이터가 세 프레임에 걸쳐 전송될 때에는, 예를 들어 도 18에 나타내는 바와 같이 된다.

도 18에 나타내는 예에서는, 화살표 A101 내지 화살표 A103에 의해 나타나는 AAC 프레임 데이터인 AAC 프레임 데이터 (1) 내지 AAC 프레임 데이터 (3)에 하나의 3D Audio 메타데이터가 저장되어 있다.

즉, 첫째 AAC 프레임 데이터 (1)에는, 1번째 DSE인 DSE1과, 2번째 DSE인 DSE2가 마련되어 있다.

이 AAC 프레임 데이터 (1)의 DSE1에는, 분할 정보로서의 프레임 내 DSE 분할 정보(dse_div_info()) 및 프레임 분할 정보(frame_div_info())와, 분할된 3D Audio 메타데이터인 분할 3D Audio 메타데이터 (1-1)이 저장되어 있다.

이 경우, AAC 프레임 데이터 (1)의 DSE1 내의 프레임 내 DSE 분할 정보에 있어서는, 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값은 「0」으로 되고, 프레임 내 DSE 분할 종단 플래그(dse_div_terminate)의 값은 「0」으로 된다.

또한, AAC 프레임 데이터 (1)의 DSE1 내의 프레임 분할 정보에 있어서는, 프레임 분할 모드 정보(frm_div_mode)의 값은 「1」로 되고, 프레임 분할 카운터(frm_div_cnt)의 값은 「0」으로 되고, 프레임 분할 종단 플래그(frm_div_terminate)의 값은 「0」으로 되고, 적절한 값의 적용 프레임 인덱스가 포함되어 있다.

또한, AAC 프레임 데이터 (1)의 DSE2에는, 분할 정보로서의 프레임 내 DSE 분할 정보(dse_div_info())와, 분할된 3D Audio 메타데이터인 분할 3D Audio 메타데이터 (1-2)가 저장되어 있다.

이 경우, AAC 프레임 데이터 (1)의 DSE2 내의 프레임 내 DSE 분할 정보에 있어서는, 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값은 「1」로 되고, 프레임 내 DSE 분할 종단 플래그(dse_div_terminate)의 값은 「1」로 된다.

동일하게, 둘째 AAC 프레임 데이터 (2)에는, 1번째 DSE1과, 2번째 DSE2가 마련되어 있다.

AAC 프레임 데이터 (2)의 DSE1에는, 분할 정보로서의 프레임 내 DSE 분할 정보(dse_div_info()) 및 프레임 분할 정보(frame_div_info())와, 분할된 3D Audio 메타데이터인 분할 3D Audio 메타데이터 (2-1)이 저장되어 있다.

이 경우, AAC 프레임 데이터 (2)의 DSE1 내의 프레임 내 DSE 분할 정보에 있어서는, 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값은 「0」으로 되고, 프레임 내 DSE 분할 종단 플래그(dse_div_terminate)의 값은 「0」으로 된다.

또한, AAC 프레임 데이터 (2)의 DSE1 내의 프레임 분할 정보에 있어서는, 프레임 분할 모드 정보(frm_div_mode)의 값은 「1」로 되고, 프레임 분할 카운터(frm_div_cnt)의 값은 「1」로 되고, 프레임 분할 종단 플래그(frm_div_terminate)의 값은 「0」으로 된다. 또한, 이 프레임 분할 정보에는, 적용 프레임 인덱스는 포함되어 있지 않다.

또한, AAC 프레임 데이터 (2)의 DSE2에는, 분할 정보로서의 프레임 내 DSE 분할 정보(dse_div_info())와, 분할된 3D Audio 메타데이터인 분할 3D Audio 메타데이터 (2-2)가 저장되어 있다.

이 경우, AAC 프레임 데이터 (2)의 DSE2 내의 프레임 내 DSE 분할 정보에 있어서는, 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값은 「1」로 되고, 프레임 내 DSE 분할 종단 플래그(dse_div_terminate)의 값은 「1」로 된다.

또한 셋째 AAC 프레임 데이터 (3)에는, 1번째 DSE1과, 2번째 DSE2가 마련되어 있다.

AAC 프레임 데이터 (3)의 DSE1에는, 분할 정보로서의 프레임 내 DSE 분할 정보(dse_div_info()) 및 프레임 분할 정보(frame_div_info())와, 분할된 3D Audio 메타데이터인 분할 3D Audio 메타데이터 (3-1)이 저장되어 있다.

이 경우, AAC 프레임 데이터 (3)의 DSE1 내의 프레임 내 DSE 분할 정보에 있어서는, 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값은 「0」으로 되고, 프레임 내 DSE 분할 종단 플래그(dse_div_terminate)의 값은 「0」으로 된다.

또한, AAC 프레임 데이터 (3)의 DSE1 내의 프레임 분할 정보에 있어서는, 프레임 분할 모드 정보(frm_div_mode)의 값은 「1」로 되고, 프레임 분할 카운터(frm_div_cnt)의 값은 「2」로 되고, 프레임 분할 종단 플래그(frm_div_terminate)의 값은 「1」로 된다. 또한, 이 프레임 분할 정보에는, 적용 프레임 인덱스는 포함되어 있지 않다.

또한, AAC 프레임 데이터 (3)의 DSE2에는, 분할 정보로서의 프레임 내 DSE 분할 정보(dse_div_info())와, 분할된 3D Audio 메타데이터인 분할 3D Audio 메타데이터 (3-2)가 저장되어 있다.

이 경우, AAC 프레임 데이터 (3)의 DSE2 내의 프레임 내 DSE 분할 정보에 있어서는, 프레임 내 DSE 분할 카운터(dse_div_cnt)의 값은 「1」로 되고, 프레임 내 DSE 분할 종단 플래그(dse_div_terminate)의 값은 「1」로 된다.

따라서, 복호 장치(51)에서는, AAC 프레임 데이터 (1) 내지 AAC 프레임 데이터 (3)에 포함되어 있는 분할 3D Audio 메타데이터 (1-1), 분할 3D Audio 메타데이터 (1-2), 분할 3D Audio 메타데이터 (2-1), 분할 3D Audio 메타데이터 (2-2), 분할 3D Audio 메타데이터 (3-1), 및 분할 3D Audio 메타데이터 (3-2)가 판독되어 그들 분할 3D Audio 메타데이터가 결합되고, 하나의 3D Audio 메타데이터로 된다. 그리고, 얻어진 하나의 3D Audio 메타데이터를 복호함으로써, 상술한 대표값과 종단값이 얻어진다.

<부호화 처리의 설명>

이어서, 적절히, 3D Audio 메타데이터가 분할하여 저장되는 경우에 행해지는 부호화 처리와 복호 처리에 대하여 설명한다. 먼저, 도 19의 흐름도를 참조하여, 부호화 장치(11)에 의한 부호화 처리에 대하여 설명한다.

스텝 S81에 있어서, 3D Audio 메타데이터 부호화부(21)는, 처리 대상으로 하는 현 프레임에 대하여, 프레임 분할 모드 정보(frm_div_mode)의 값을 「0」으로 한다.

그리고, 스텝 S82에 있어서, 3D Audio 메타데이터 부호화부(21)는, 처리 대상으로 하는 현 프레임에 대하여, 전송해야 할 3D Audio 메타데이터가 있는지 여부를 판정한다. 스텝 S82에서는, 도 10의 스텝 S11에 있어서의 경우와 동일한 처리가 행해진다.

스텝 S82에 있어서, 전송해야 할 3D Audio 메타데이터가 있다고 판정된 경우, 스텝 S83에 있어서 3D Audio 메타데이터 부호화부(21)는, 3D Audio 메타데이터 부호화 처리를 행하여, 외부로부터 공급된 3D Audio 메타데이터를 부호화한다. 스텝 S83에서는, 도 10의 스텝 S12와 동일한 처리가 행해진다.

스텝 S84에 있어서, 3D Audio 메타데이터 부호화부(21)는, 스텝 S83의 처리에서 얻어진 처리 대상의 현 프레임의 부호화 3D Audio 메타데이터의 부호량(데이터양)이, 미리 정해진 허용 범위 내에 있는지 여부를 판정한다.

여기에서는, 부호화 3D Audio 메타데이터의 데이터양이 허용 범위가 되는 역치보다도 많아(커서), 부호화 3D Audio 메타데이터를 현 프레임의 AAC 프레임 데이터의 DSE에 전부 저장할 수는 없을 경우에, 허용 범위 내가 아니라고 판정된다.

스텝 S84에 있어서 허용 범위 내라고 판정된 경우, 3D Audio 메타데이터 부호화부(21)는, 스텝 S83의 처리에서 얻어진 부호화 3D Audio 메타데이터를 그대로 AAC 부호화부(22)에 공급하고, 그 후, 처리는 스텝 S90으로 진행한다.

보다 상세하게는, 이 때 3D Audio 메타데이터 부호화부(21)는, 부호화 3D Audio 메타데이터가 하나의 DSE에 전부 저장할 수는 없을 때에는, 부호화 3D Audio 메타데이터를 몇몇 분할 3D Audio 메타데이터로 분할한다. 그리고, 3D Audio 메타데이터 부호화부(21)는, 분할에 의해 얻어진 분할 3D Audio 메타데이터의 각각이 현 프레임의 AAC 프레임 데이터에 있어서의 복수의 DSE의 각각에 저장되도록 한다.

또한, 3D Audio 메타데이터 부호화부(21)는, 적절한 프레임 내 DSE 분할 정보와 프레임 분할 정보도 생성하고, 그들의 프레임 내 DSE 분할 정보와 프레임 분할 정보도 AAC 부호화부(22)에 공급한다. 특히, 여기에서는 현 프레임의 3D Audio 메타데이터가 현 프레임의 AAC 프레임 데이터에 저장되므로, 프레임 분할 모드 정보(frm_div_mode)의 값은 「0」으로 된다. 즉, 스텝 S81에서 설정된 프레임 분할 모드 정보가 그대로 AAC 부호화부(22)로 공급된다.

또한, 부호화 3D Audio 메타데이터의 분할이나, 프레임 내 DSE 분할 정보와 프레임 분할 정보의 생성은, 3D Audio 메타데이터 부호화부(21)가 아니라 AAC 부호화부(22)에 있어서 행해지게 해도 된다.

이에 비해, 스텝 S84에 있어서 허용 범위 내가 아니라고 판정된 경우, 그 후, 처리는 스텝 S85로 진행한다.

스텝 S85에 있어서, 3D Audio 메타데이터 부호화부(21)는, 스텝 S81에서 설정한 현 프레임의 프레임 분할 모드 정보(frm_div_mode)의 값을 「1」로 변경한다.

또한, 3D Audio 메타데이터 부호화부(21)는, 지금까지 현 프레임으로 하고 있던 프레임을 분할 전송 기간의 선두 프레임으로 한다.

3D Audio 메타데이터 부호화부(21)는, 그 선두 프레임의 시간적으로 다음 프레임을 새로운 처리 대상의 프레임으로 하고, 그 새로운 처리 대상의 프레임의 3D Audio 메타데이터도 취득한다. 추가로, 3D Audio 메타데이터 부호화부(21)는, 분할 전송 기간의 프레임의 3D Audio 메타데이터에 대하여, 적절히, 중요도가 낮은 오디오 오브젝트나 움직임이 없는 오디오 오브젝트의 위치 정보 등을 삭제하거나 하여, 3D Audio 메타데이터의 데이터양의 삭감을 행하게 해도 된다.

스텝 S86에 있어서, 3D Audio 메타데이터 부호화부(21)는, 분할 전송 기간의 선두 프레임으로부터, 현시점에서 처리 대처로 되어 있는 프레임까지의 각 프레임의 3D Audio 메타데이터를 대상으로 하여 대표값과 종단값을 산출한다.

즉, 3D Audio 메타데이터 부호화부(21)는, 현시점으로 처리 대처로 되어 있는 프레임이 분할 전송 기간의 종단 프레임인 것으로 한다.

그리고, 3D Audio 메타데이터 부호화부(21)는, 분할 전송 기간을 구성하는 각 프레임의 3D Audio 메타데이터, 보다 상세하게는 종단의 프레임을 제외한 각 프레임의 3D Audio 메타데이터에 기초하여, 분할 전송 기간에 대한 3D Audio 메타데이터의 대표값을 결정한다. 예를 들어, 3D Audio 메타데이터의 대표값의 결정 시에는, 상술한 바와 같이, 평균값을 구하는 연산 등이 필요에 따라서 행해지고, 대표값을 적용하는 대표값 적용 프레임도 3D Audio 메타데이터 부호화부(21)에 의해 결정된다.

또한, 3D Audio 메타데이터 부호화부(21)는, 분할 전송 기간의 종단 프레임의 3D Audio 메타데이터 등에 기초하여, 그 종단의 프레임 최종적인 3D Audio 메타데이터인 종단값을 결정한다.

3D Audio 메타데이터 부호화부(21)는, 이와 같이 하여 결정된 대표값과 종단값을, 분할 전송 기간을 구성하는 복수의 프레임에 대한 3D Audio 메타데이터로 한다. 이 경우, 3D Audio 메타데이터 부호화부(21)는, 분할 전송 기간의 대표값과 종단값을 결정하는 메타데이터 결정부로서 기능한다.

스텝 S87에 있어서, 3D Audio 메타데이터 부호화부(21)는, 스텝 S86에서 얻어진 대표값과 종단값을 3D Audio 메타데이터로서 3D Audio 메타데이터 부호화 처리를 행하고, 3D Audio 메타데이터를 부호화한다.

스텝 S88에 있어서, 3D Audio 메타데이터 부호화부(21)는, 스텝 S87의 처리에서 얻어진 부호화 3D Audio 메타데이터의 부호량(데이터양)이, 분할 전송 기간을 구성하는 프레임의 수에 의해 정해지는 허용 범위 내에 있는지 여부를 판정한다.

여기에서는, 부호화 3D Audio 메타데이터의 데이터양이 허용 범위가 되는 역치보다도 많아(커서), 부호화 3D Audio 메타데이터가 분할 전송 기간을 구성하는 모든 프레임의 AAC 프레임 데이터의 DSE에 전부 저장할 수는 없을 경우에, 허용 범위 내가 아니라고 판정된다.

스텝 S88에 있어서 허용 범위 내가 아니라고 판정된 경우, 아직 분할 전송 기간에 대하여 3D Audio 메타데이터의 데이터양이 너무 많으므로, 처리는 스텝 S86로 되돌아가서, 상술한 처리가 반복해서 행해진다. 이 때, 지금까지 분할 전송 기간으로 여겨 온 기간의 종단의 프레임의 시간적으로 다음 프레임이, 새로운 분할 전송 기간의 종단의 프레임으로 된다.

이에 비해, 스텝 S88에 있어서 허용 범위 내라고 판정된 경우, 스텝 S89에 있어서 3D Audio 메타데이터 부호화부(21)는, 프레임 분할 처리를 행한다.

즉, 3D Audio 메타데이터 부호화부(21)는, 스텝 S87의 처리에서 얻어진 부호화 3D Audio 메타데이터를, 복수의 분할 3D Audio 메타데이터로 분할한다. 예를 들어 도 18에 나타낸 예에서는, 부호화 3D Audio 메타데이터가 분할 3D Audio 메타데이터 (1-1) 내지 분할 3D Audio 메타데이터 (3-2)로 분할된다.

또한, 3D Audio 메타데이터 부호화부(21)는, 3D Audio 메타데이터의 분할 결과나 분할 전송 기간 등에 따라서, 스텝 S85에서 정한 값이 「1」인 프레임 분할 모드 정보를 포함하는 프레임 분할 정보나, 프레임 내 DSE 분할 정보도 생성한다. 여기에서는, 프레임 분할 정보는 분할 전송 기간의 프레임마다 생성되고, 프레임 내 DSE 분할 정보는 분할 전송 기간의 각 프레임의 DSE마다 생성된다.

그리고, 3D Audio 메타데이터 부호화부(21)는, 생성한 프레임 내 DSE 분할 정보 및 프레임 분할 정보와, 분할 3D Audio 메타데이터를 AAC 부호화부(22)에 공급하고, 그 후, 처리는 스텝 S90으로 진행한다. 또한, 스텝 S89의 프레임 분할 처리는, AAC 부호화부(22)에 의해 행해지게 해도 된다.

스텝 S84에 있어서 허용 범위 내라고 판정되었거나, 또는 스텝 S89의 처리가 행해지면, 그 후, 스텝 S90의 처리가 행해진다.

스텝 S90에 있어서, AAC 부호화부(22)는, 3D Audio 메타데이터 부호화부(21)로부터 공급된 부호화 3D Audio 메타데이터, 프레임 내 DSE 분할 정보, 및 프레임 분할 정보와, 외부로부터 공급된 오디오 데이터를 AAC 부호화하고, 3D AAC 비트 스트림을 생성한다.

구체적으로는, AAC 부호화부(22)는, 프레임 내 DSE 분할 정보 및 프레임 분할 정보를, 도 15 내지 도 17에 나타낸 신택스에 따라서 AAC 프레임 데이터의 DSE에 저장함과 함께, 적절히, 분할된 부호화 3D Audio 메타데이터도 DSE에 저장한다.

예를 들어 복수의 프레임에 걸쳐서 3D Audio 메타데이터가 전송될 때에는, AAC 부호화부(22)는, 분할 전송 기간의 복수의 프레임의 DSE의 각각에, 그들 복수의 프레임에 대한 3D Audio 메타데이터를 분할하여 얻어진 분할 3D Audio 메타데이터의 각각을 저장한다. 그 때, AAC 부호화부(22)는, 적절한 값으로 된 프레임 분할 모드 정보나 적용 프레임 인덱스 등을 포함하는 프레임 분할 정보와, 프레임 내 DSE 분할 정보도 적절히, DSE에 저장한다.

또한, AAC 부호화부(22)는, 외부로부터 공급된 오디오 데이터를 AAC 부호화 방식에 의해 부호화하고, AAC 오디오 엘리먼트 데이터로서 AAC 프레임 데이터의 SCE나 CPE, LFE 등에 저장한다. 또한, AAC 부호화부(22)는, 외부로부터 공급된 3D Audio 구성 요소 정보나, 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보도 AAC 프레임 데이터의 PCE에 저장한다.

AAC 부호화부(22)는, 이와 같이 하여 얻어진 1 프레임분 또는 복수 프레임분의 AAC 프레임 데이터를 포함하는 3D AAC 비트 스트림을 출력(송신)하면, 그 후, 처리는 스텝 S92로 진행한다.

또한, 스텝 S82에 있어서 전송해야 할 3D Audio 메타데이터가 없다고 판정된 경우, 그 후, 처리는 스텝 S91로 진행한다.

스텝 S91에 있어서, AAC 부호화부(22)는, 외부로부터 공급된 오디오 데이터를 AAC 부호화한다.

즉, AAC 부호화부(22)는, 외부로부터 공급된 1 프레임분의 오디오 데이터를 AAC 부호화 방식에 의해 부호화하고, AAC 프레임 데이터에 저장한다. 또한, AAC 부호화부(22)는, 외부로부터 공급된 3D Audio 구성 요소 정보나, 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보도 AAC 프레임 데이터의 PCE에 저장한다.

AAC 부호화부(22)는, 이와 같이 하여 얻어진 1 프레임분의 AAC 프레임 데이터를 포함하는 3D AAC 비트 스트림을 출력하면, 그 후, 처리는 스텝 S92로 진행한다.

또한, 여기에서는 전 프레임 참조 플래그는 사용되지 않는 예에 대하여 설명하였지만, 전 프레임 참조 플래그도 사용되도록 해도 물론 된다.

그러한 경우, 스텝 S90에서는 DSE에 전 프레임 참조 플래그가 저장된다. 또한, 스텝 S82에 있어서 전송해야 할 3D Audio 메타데이터가 없다고 판정된 경우에는, 그 후, 도 10의 스텝 S14 내지 스텝 S16과 동일한 처리가 행해진다.

스텝 S90의 처리 또는 스텝 S91의 처리가 행해지면, 그 후, 스텝 S92의 처리가 행해진다.

스텝 S92에 있어서, 부호화 장치(11)는, 부호화해야 할 오디오 데이터가 있는지 여부를 판정한다.

스텝 S92에 있어서, 아직 부호화해야 할 오디오 데이터가 있다고 판정된 경우, 처리는 스텝 S81로 되돌아가서, 상술한 처리가 반복해서 행해진다.

이에 비해, 스텝 S92에 있어서 부호화해야 할 오디오 데이터가 없는, 즉, 전송할 콘텐츠의 오디오 데이터가 모두 부호화되어 출력되었다고 판정된 경우, 부호화 처리는 종료된다.

이상과 같이 하여 부호화 장치(11)는, 3D Audio 메타데이터를 DSE에 저장하고, 3D AAC 비트 스트림을 생성한다. 이렇게 함으로써 기존의 AAC 규격을 확장하고, 복호측에 있어서 3D Audio 메타데이터를 이용하여 3D Audio 재생을 행할 수 있게 된다. 이에 의해, 편리성을 향상시킬 수 있다. 특히 3D Audio 메타데이터를 1 프레임분의 AAC 프레임 데이터에 전부 저장할 수는 없을 때에는, 대표값 및 종단값을 3D Audio 메타데이터로 하고, 복수 프레임의 AAC 프레임 데이터에 걸쳐 저장함으로써, 효율적으로 3D Audio 메타데이터를 전송할 수 있다.

<복호 처리의 설명>

이어서, 도 20의 흐름도를 참조하여, 복호 장치(51)에 의해 행해지는 복호 처리에 대하여 설명한다.

스텝 S131에 있어서, AAC 복호부(61)는 수신한 3D AAC 비트 스트림에 대하여, AAC 부호화 방식에 대응하는 복호 방식에서의 복호 처리인 AAC 복호 처리를 행한다.

스텝 S131에서는, 도 11의 스텝 S41과 동일한 처리가 행해져서, 복호에 의해 얻어진 3D Audio 구성 요소 정보가 상위의 제어부에 공급되거나, 각 오디오 오브젝트의 2차원 평면 상의 위치 정보가 판독되거나, 복호에 의해 얻어진 오디오 데이터가 3D Audio 렌더러(64)에 공급되거나 한다.

스텝 S132에 있어서, AAC 복호부(61)는, 3D AAC 비트 스트림의 AAC 프레임 데이터의 DSE에 3D Audio 메타데이터가 있는지 여부를 판정한다.

스텝 S132에 있어서 3D Audio 메타데이터가 있다고 판정된 경우, 그 후, 처리는 스텝 S133으로 진행한다.

스텝 S133에 있어서, AAC 복호부(61)는, AAC 프레임 데이터의 DSE에 저장되어 있는 프레임 분할 모드 정보(frm_div_mode)에 기초하여, 프레임 분할되어 있는지 여부를 판정한다. 예를 들어 프레임 분할 모드 정보의 값이 「1」인 경우, 프레임 분할되어 있는, 즉, 하나의 3D Audio 메타데이터가 복수의 프레임의 AAC 프레임 데이터에 걸쳐 기록되어 있다고 판정된다.

스텝 S133에 있어서 프레임 분할되어 있지 않다고 판정된 경우, 즉, 프레임 분할 모드 정보의 값이 「0」인 경우, 처리는 스텝 S134로 진행한다.

이 경우, AAC 복호부(61)는, 1 프레임분의 AAC 프레임 데이터의 DSE로부터 부호화 3D Audio 메타데이터를 판독하여 3D Audio 메타데이터 복호부(62)에 공급한다.

또한, 이 때 1 프레임분의 AAC 프레임 데이터의 복수의 DSE에 3D Audio 메타데이터가 분할하여 저장되어 있는 경우에는, AAC 복호부(61)는, 각 DSE의 프레임 내 DSE 분할 정보를 참조하여 그들 DSE로부터 분할 3D Audio 메타데이터를 판독한다. 즉, 1 프레임분의 AAC 프레임 데이터의 복수의 DSE의 각각으로부터, 1 프레임분의 3D Audio 메타데이터를 분할하여 얻어진 분할 3D Audio 메타데이터의 각각이 판독된다.

그리고, AAC 복호부(61)는, 각 DSE로부터 판독한 분할 3D Audio 메타데이터를 결합하여 하나의 부호화 3D Audio 메타데이터로 하고, 그 부호화 3D Audio 메타데이터를 3D Audio 메타데이터 복호부(62)에 공급한다.

스텝 S134에 있어서, 3D Audio 메타데이터 복호부(62)는, AAC 복호부(61)로부터 공급된 부호화 3D Audio 메타데이터를 복호하고, 그 결과 얻어진 1 프레임분의 3D Audio 메타데이터를 3D Audio 렌더러(64)에 공급한다.

이와 같이 하여 3D Audio 메타데이터가 얻어지면, 그 후, 처리는 스텝 S140으로 진행한다.

이에 비해, 스텝 S133에 있어서 프레임 분할되어 있다고 판정된 경우, 스텝 S135에 있어서, AAC 복호부(61)는, 1 프레임분의 AAC 프레임 데이터의 DSE로부터 분할 3D Audio 메타데이터를 취득한다(판독한다).

이 경우에 있어서도, 1 프레임분의 AAC 프레임 데이터에 있어서 분할 3D Audio 메타데이터가 복수의 DSE에 저장되어 있는 경우에는, 프레임 내 DSE 분할 정보가 참조되어, 그들 DSE로부터 분할된 3D Audio 메타데이터가 판독된다.

스텝 S136에 있어서, AAC 복호부(61)는, 분할 전송 기간의 선두 프레임으로부터 지금까지의 처리에 의해 얻어진, 분할된 3D Audio 메타데이터를 결합한다. 분할된 3D Audio 메타데이터를 결합하는 결합 처리 시에는, AAC 복호부(61)는, 적절히, DSE로부터 판독된 프레임 분할 정보를 참조하면서 결합을 행한다.

스텝 S137에 있어서, AAC 복호부(61)는, 직전의 스텝 S135에서 처리한 프레임이 분할 전송 기간의 종단의 프레임인지 여부를 판정한다. 예를 들어 AAC 복호부(61)는, 직전의 스텝 S135에서 처리한 프레임의 프레임 분할 종단 플래그(frm_div_terminate)의 값이 「1」인 경우, 종단의 프레임이라고 판정한다.

스텝 S137에 있어서, 종단의 프레임이 아니라고 판정된 경우, 아직 분할 3D Audio 메타데이터를 판독하지 않은 분할 전송 기간의 프레임이 있기 때문에, 처리는 스텝 S135로 되돌아가서, 상술한 처리가 반복해서 행해진다. 즉, 다음 프레임에 대하여 분할 3D Audio 메타데이터가 판독된다.

이에 비해, 스텝 S137에 있어서 종단의 프레임이라고 판정된 경우, 직전에 행해진 스텝 S136의 처리에 의해, 분할 전송 기간에 대한 부호화 3D Audio 메타데이터가 얻어졌으므로, 그 후, 처리는 스텝 S138로 진행한다.

이 때, AAC 복호부(61)는, 결합에 의해 얻어진 분할 전송 기간에 대한 부호화 3D Audio 메타데이터와, 그 분할 전송 기간에 대하여 DSE의 프레임 내 DSE 분할 정보나 프레임 분할 정보로부터 판독된 적용 프레임 인덱스(apply_frm_Index) 등의 정보를 3D Audio 메타데이터 복호부(62)에 공급한다. 이에 의해, 3D Audio 메타데이터 복호부(62)는, 분할 전송 기간이 어떤 프레임으로 구성되어 있는지, 그리고 대표값이 어떤 프레임에 적용되는지를 특정할 수 있다.

스텝 S138에 있어서, 3D Audio 메타데이터 복호부(62)는, AAC 복호부(61)로부터 공급된 분할 전송 기간의 부호화 3D Audio 메타데이터를 복호한다. 이에 의해, 분할 전송 기간에 대한 대표값과 종단값이 얻어지게 된다.

스텝 S139에 있어서, 3D Audio 메타데이터 복호부(62)는, 스텝 S138의 처리에서 얻어진 대표값 및 종단값과, 이미 얻어져 있는 분할 전송 기간의 직전 프레임의 3D Audio 메타데이터와, 적용 프레임 인덱스에 기초하여 보간 처리를 행한다.

예를 들어 보간 처리에서는, 도 14를 참조하여 설명한 바와 같이, 분할 전송 기간의 직전 프레임의 3D Audio 메타데이터와 대표값이 사용되어, 분할 전송 기간의 선두 프레임으로부터 대표값이 적용되는 프레임의 직전 프레임까지의 사이의 각 프레임의 3D Audio 메타데이터가 보간에 의해 산출된다.

동일하게, 대표값과 종단값이 사용되고, 대표값이 적용되는 프레임의 직후 프레임으로부터, 분할 전송 기간의 종단의 프레임의 직전 프레임까지의 사이의 각 프레임의 3D Audio 메타데이터가 보간에 의해 산출된다.

이 경우, 3D Audio 메타데이터 복호부(62)는, 보간 처리를 행하여 분할 전송 기간의 프레임의 3D Audio 메타데이터를 생성하는 메타데이터 생성부로서 기능한다.

이러한 처리에 의해, 분할 전송 기간의 각 프레임의 3D Audio 메타데이터가 얻어지게 된다. 또한, 보간 처리 시에는, 적절히, 적용 프레임 인덱스 등의 AAC 복호부(61)로부터 공급된 정보가 참조된다.

분할 전송 기간의 각 프레임의 3D Audio 메타데이터가 얻어지면, 3D Audio 메타데이터 복호부(62)는, 그들 3D Audio 메타데이터를 3D Audio 렌더러(64)에 공급하고, 그 후, 처리는 스텝 S140으로 진행한다.

스텝 S134 또는 스텝 S139의 처리가 행해져서 1개 또는 복수의 프레임의 3D Audio 메타데이터가 얻어지면, 그 후, 스텝 S140의 처리가 행해진다.

즉, 스텝 S140에 있어서, 3D Audio 렌더러(64)는, 3D Audio 메타데이터 복호부(62)로부터 공급된 3D Audio 메타데이터와, AAC 복호부(61)로부터 공급된 오디오 데이터에 기초하여 렌더링을 행한다. 또한, 스텝 S140에서는 도 11의 스텝 S47에 있어서의 경우와 동일한 처리가 행해진다.

렌더링에 의해 재생 데이터가 얻어지면, 3D Audio 렌더러(64)는, 얻어진 재생 데이터를 출력하고, 그 후, 처리는 스텝 S142로 진행한다.

한편, 스텝 S132에 있어서, 3D Audio 메타데이터가 없다고 판정된 경우, 그 후, 스텝 S141의 처리가 행해진다.

즉, 스텝 S141에 있어서 3D Audio 렌더러(64)는, AAC 복호부(61)로부터 공급된 오디오 데이터에 기초하여, 통상의 AAC 규격에 의해 정해진 렌더링을 행하고, 그 결과 얻어진 재생 데이터를 출력한다. 스텝 S141에서는 도 11의 스텝 S48에 있어서의 경우와 동일한 처리가 행해진다.

이와 같이 하여 재생 데이터가 출력되면, 그 후, 처리는 스텝 S142로 진행한다.

그러한 경우, 스텝 S132에 있어서, 3D Audio 메타데이터가 없다고 판정된 경우에는, 그 후, 도 11의 스텝 S44 내지 스텝 S46 및 스텝 S48과 동일한 처리가 행해진다.

스텝 S140 또는 스텝 S141의 처리가 행해지면, 스텝 S142에 있어서 AAC 복호부(61)는, 복호해야 할 3D AAC 비트 스트림이 있는지 여부를 판정한다.

스텝 S142에 있어서 복호해야 할 3D AAC 비트 스트림이 있다고 판정된 경우, 처리는 스텝 S131로 되돌아가서, 상술한 처리가 반복해서 행해진다.

이에 비해, 스텝 S142에 있어서 복호해야 할 3D AAC 비트 스트림이 없다고 판정된 경우, 복호 처리는 종료한다.

특히, 분할 전송 기간의 3D Audio 메타데이터가 복수 프레임의 AAC 프레임 데이터에 걸쳐 저장되어 있을 때에는, 3D Audio 메타데이터로서의 대표값 및 종단값에 기초하여 보간 처리를 행하고, 각 프레임의 3D Audio 메타데이터를 얻음으로써, 적은 부호량으로도 효율적으로 3D Audio의 재생을 행할 수 있다.

이상과 같이, 본 기술에 의하면 오디오 코덱(부호화 방식)에 의존하지 않고, 안실러리 데이터 영역을 갖는 기존의 오디오 코덱의 규격 내에서 3D Audio 데이터의 전송을 행할 수 있다.

또한, DSE 등의 안실러리 데이터 영역의 크기에 제한이 있는 경우에는, 3D Audio 메타데이터를 분할하고, 복수의 안실러리 데이터 영역에 분산하여 저장함으로써 3D Audio 메타데이터를 전송할 수 있다.

또한, PCE 등에 오디오 오브젝트의 2차원 평면 상의 위치를 나타내는 위치 정보, 즉, 채널 매핑에 관한 정보(스피커 배치 정보)를 저장하여 전송함으로써, 3D Audio에 대응하지 않은 기존의 복호 장치에 있어서도 가능한 한의 위치 정보를 사용하여 오디오 재생을 행할 수 있다.

<컴퓨터의 구성예>

그런데, 상술한 일련의 처리는 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.

도 21은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.

버스(504)에는, 또한 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.

입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 등을 포함한다. 기록부(508)는 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는 네트워크 인터페이스 등을 포함한다. 드라이브(510)는 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해, RAM503에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송이라는, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(509)에서 수신하여, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은 ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

또한, 본 기술의 실시 형태는 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.

예를 들어, 본 기술은, 하나의 기능을 네트워크를 통해 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 이외에도, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 이외에도, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.

(1)

부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하는 복호부와,

상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는 출력부

를 구비하는 복호 장치.

(2)

상기 복호부는, 1 프레임분의 상기 부호화 비트 스트림에 있어서의 복수의 상기 영역의 각각으로부터, 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 판독하고, 상기 복수의 상기 데이터에 기초하여 상기 메타데이터를 얻는

(1)에 기재된 복호 장치.

(3)

상기 복호부는, 상기 부호화 비트 스트림에 있어서의 복수의 프레임의 상기 영역의 각각으로부터, 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 판독하고, 상기 복수의 상기 데이터에 기초하여, 상기 복수의 프레임에 대한 상기 메타데이터를 얻는

(1)에 기재된 복호 장치.

(4)

상기 복수의 프레임에 대한 상기 메타데이터는, 상기 복수의 프레임을 포함하는 기간에 대한 상기 메타데이터의 대표값, 및 상기 기간의 종단 프레임에 있어서의 상기 메타데이터인 종단값인

(3)에 기재된 복호 장치.

(5)

상기 복호부는, 상기 영역으로부터, 상기 대표값을 상기 메타데이터로서 사용하는 프레임을 나타내는 적용 프레임 정보를 추가로 판독하고,

상기 대표값, 상기 종단값, 및 상기 적용 프레임 정보에 기초하여 보간 처리를 행함으로써, 상기 기간 내의 프레임 상기 메타데이터를 생성하는 메타데이터 생성부를 추가로 구비하는

(4)에 기재된 복호 장치.

(6)

상기 출력부는, 소정 프레임보다도 전 프레임에서 상기 영역으로부터 판독된 상기 메타데이터 중의 시간적으로 마지막에 판독된 상기 메타데이터에 기초하여, 상기 소정 프레임의 복호된 상기 오디오 데이터를 출력하는

(1) 내지 (5) 중 어느 한 항에 기재된 복호 장치.

(7)

상기 출력부는, 상기 마지막에 판독된 상기 메타데이터를 사용할 것인지의 지시에 따라서, 상기 마지막에 판독된 상기 메타데이터에 기초하여, 상기 소정 프레임의 복호된 상기 오디오 데이터를 출력하는

(6)에 기재된 복호 장치.

(8)

상기 출력부는, 소정 프레임의 상기 메타데이터가 얻어지지 않은 경우, 상기 영역으로부터 판독된 상기 메타데이터와는 상이한 다른 메타데이터에 기초하여, 상기 소정 프레임의 복호된 상기 오디오 데이터를 출력하는

(1) 내지 (5) 중 어느 한 항에 기재된 복호 장치.

(9)

상기 부호화 비트 스트림은 AAC 비트 스트림이며,

상기 복호부는, 상기 영역으로서의 DSE로부터 상기 메타데이터를 판독하는

(1) 내지 (8) 중 어느 한 항에 기재된 복호 장치.

(10)

상기 부호화 비트 스트림은 AAC 비트 스트림이며,

상기 복호부는, 상기 AAC 비트 스트림의 PCE로부터, 상기 오디오 데이터의 구성 정보 또는 상기 오디오 데이터의 스피커 배치 정보를 판독하는

(1) 내지 (9) 중 어느 한 항에 기재된 복호 장치.

(11)

복호 장치가,

부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하고,

상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는

스텝을 포함하는 복호 방법.

(12)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

(13)

오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는 부호화부를 구비하는

부호화 장치.

(14)

상기 부호화부는, 1 프레임분의 상기 부호화 비트 스트림에 있어서의 복수의 상기 영역의 각각에, 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 저장하는

(13)에 기재된 부호화 장치.

(15)

상기 부호화부는, 상기 부호화 비트 스트림에 있어서의 복수의 프레임의 상기 영역의 각각에, 상기 복수의 프레임에 대한 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 저장하는

(13)에 기재된 부호화 장치.

(16)

상기 복수의 프레임을 포함하는 기간에 대한 상기 메타데이터의 대표값을 결정하고, 상기 대표값을 상기 복수의 프레임에 대한 상기 메타데이터로 하는 메타데이터 결정부를 추가로 구비하는

(15)에 기재된 부호화 장치.

(17)

상기 메타데이터 결정부는, 상기 기간의 종단 프레임에 있어서의 상기 메타데이터인 종단값을 결정하고, 상기 대표값 및 상기 종단값을 상기 복수의 프레임에 대한 상기 메타데이터로 하는

(16)에 기재된 부호화 장치.

(18)

상기 부호화부는, 상기 대표값을 상기 메타데이터로서 사용하는 프레임을 나타내는 적용 프레임 정보를 상기 영역에 저장하는

(16) 또는 (17)에 기재된 부호화 장치.

(19)

상기 부호화부는, 소정 프레임의 상기 메타데이터로서, 상기 소정 프레임보다도 시간적으로 전 프레임의 상기 영역에 저장된 상기 메타데이터 중, 가장 상기 소정 프레임에 가까운 프레임의 상기 메타데이터를 사용할 것인지를 지시하는 정보를 상기 영역에 저장하는

(13) 내지 (18) 중 어느 한 항에 기재된 부호화 장치.

(20)

상기 부호화 비트 스트림은 AAC 비트 스트림이며,

상기 부호화부는, 상기 영역으로서의 DSE에 상기 메타데이터를 저장하는

(13) 내지 (19) 중 어느 한 항에 기재된 부호화 장치.

(21)

상기 부호화 비트 스트림은 AAC 비트 스트림이며,

상기 부호화부는, 상기 AAC 비트 스트림의 PCE에, 상기 오디오 데이터의 구성 정보 또는 상기 오디오 데이터의 스피커 배치 정보를 저장하는

(13) 내지 (20) 중 어느 한 항에 기재된 부호화 장치.

(22)

부호화 장치가,

오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는

스텝을 포함하는 부호화 방법.

(23)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 부호화 장치
21: 3D Audio 메타데이터 부호화부
22: AAC 부호화부
51: 복호 장치
61: AAC 복호부
62: 3D Audio 메타데이터 복호부
63: 3D Audio 메타데이터 취득부
64: 3D Audio 렌더러

Claims

부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하는 복호부와,
상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는 출력부
를 구비하는 복호 장치.
제1항에 있어서, 상기 복호부는, 1 프레임분의 상기 부호화 비트 스트림에 있어서의 복수의 상기 영역의 각각으로부터, 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 판독하고, 상기 복수의 상기 데이터에 기초하여 상기 메타데이터를 얻는
복호 장치.
제1항에 있어서, 상기 복호부는, 상기 부호화 비트 스트림에 있어서의 복수의 프레임의 상기 영역의 각각으로부터, 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 판독하고, 상기 복수의 상기 데이터에 기초하여, 상기 복수의 프레임에 대한 상기 메타데이터를 얻는
복호 장치.
제3항에 있어서, 상기 복수의 프레임에 대한 상기 메타데이터는, 상기 복수의 프레임을 포함하는 기간에 대한 상기 메타데이터의 대표값, 및 상기 기간의 종단 프레임에 있어서의 상기 메타데이터인 종단값인
복호 장치.
제4항에 있어서, 상기 복호부는, 상기 영역으로부터, 상기 대표값을 상기 메타데이터로서 사용하는 프레임을 나타내는 적용 프레임 정보를 추가로 판독하고,
상기 대표값, 상기 종단값, 및 상기 적용 프레임 정보에 기초하여 보간 처리를 행함으로써, 상기 기간 내의 프레임 상기 메타데이터를 생성하는 메타데이터 생성부를 추가로 구비하는
복호 장치.
제1항에 있어서, 상기 출력부는, 소정 프레임보다도 전 프레임에서 상기 영역으로부터 판독된 상기 메타데이터 중의 시간적으로 마지막에 판독된 상기 메타데이터에 기초하여, 상기 소정 프레임의 복호된 상기 오디오 데이터를 출력하는
복호 장치.
제6항에 있어서, 상기 출력부는, 상기 마지막에 판독된 상기 메타데이터를 사용할 것인지의 지시에 따라서, 상기 마지막에 판독된 상기 메타데이터에 기초하여, 상기 소정 프레임의 복호된 상기 오디오 데이터를 출력하는
복호 장치.
제1항에 있어서, 상기 출력부는, 소정 프레임의 상기 메타데이터가 얻어지지 않은 경우, 상기 영역으로부터 판독된 상기 메타데이터와는 상이한 다른 메타데이터에 기초하여, 상기 소정 프레임의 복호된 상기 오디오 데이터를 출력하는
복호 장치.
제1항에 있어서, 상기 부호화 비트 스트림은 AAC 비트 스트림이며,
상기 복호부는, 상기 영역으로서의 DSE로부터 상기 메타데이터를 판독하는
복호 장치.
제1항에 있어서, 상기 부호화 비트 스트림은 AAC 비트 스트림이며,
상기 복호부는, 상기 AAC 비트 스트림의 PCE로부터, 상기 오디오 데이터의 구성 정보 또는 상기 오디오 데이터의 스피커 배치 정보를 판독하는
복호 장치.
복호 장치가,
부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하고,
상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는
스텝을 포함하는 복호 방법.
부호화 비트 스트림에 포함되어 있는, 오브젝트 오디오를 포함하는 오디오 데이터를 복호함과 함께, 상기 부호화 비트 스트림의 임의의 데이터를 저장 가능한 영역으로부터 상기 오브젝트 오디오의 메타데이터를 판독하고,
상기 메타데이터에 기초하여, 복호된 상기 오디오 데이터를 출력하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.
오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는 부호화부를 구비하는
부호화 장치.
제13항에 있어서, 상기 부호화부는, 1 프레임분의 상기 부호화 비트 스트림에 있어서의 복수의 상기 영역의 각각에, 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 저장하는
부호화 장치.
제13항에 있어서, 상기 부호화부는, 상기 부호화 비트 스트림에 있어서의 복수의 프레임의 상기 영역의 각각에, 상기 복수의 프레임에 대한 상기 메타데이터를 분할하여 얻어진 복수의 데이터의 각각을 저장하는
부호화 장치.
제15항에 있어서, 상기 복수의 프레임을 포함하는 기간에 대한 상기 메타데이터의 대표값을 결정하고, 상기 대표값을 상기 복수의 프레임에 대한 상기 메타데이터로 하는 메타데이터 결정부를 추가로 구비하는
부호화 장치.
제16항에 있어서, 상기 메타데이터 결정부는, 상기 기간의 종단 프레임에 있어서의 상기 메타데이터인 종단값을 결정하고, 상기 대표값 및 상기 종단값을 상기 복수의 프레임에 대한 상기 메타데이터로 하는
부호화 장치.
제16항에 있어서, 상기 부호화부는, 상기 대표값을 상기 메타데이터로서 사용하는 프레임을 나타내는 적용 프레임 정보를 상기 영역에 저장하는
부호화 장치.
제13항에 있어서, 상기 부호화부는, 소정 프레임의 상기 메타데이터로서, 상기 소정 프레임보다도 시간적으로 전 프레임의 상기 영역에 저장된 상기 메타데이터 중, 가장 상기 소정 프레임에 가까운 프레임의 상기 메타데이터를 사용할 것인지를 지시하는 정보를 상기 영역에 저장하는
부호화 장치.
제13항에 있어서, 상기 부호화 비트 스트림은 AAC 비트 스트림이며,
상기 부호화부는, 상기 영역으로서의 DSE에 상기 메타데이터를 저장하는
부호화 장치.
제13항에 있어서, 상기 부호화 비트 스트림은 AAC 비트 스트림이며,
상기 부호화부는, 상기 AAC 비트 스트림의 PCE에, 상기 오디오 데이터의 구성 정보 또는 상기 오디오 데이터의 스피커 배치 정보를 저장하는
부호화 장치.
부호화 장치가,
오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는
스텝을 포함하는 부호화 방법.
오브젝트 오디오를 포함하는 오디오 데이터를 부호화함과 함께, 임의의 데이터를 저장 가능한 영역에 상기 오브젝트 오디오의 메타데이터를 저장하여, 상기 메타데이터, 및 부호화된 상기 오디오 데이터가 포함되는 부호화 비트 스트림을 생성하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.